Anda di halaman 1dari 4

Reconhecimento Facial Utilizando a Rede Neural Neocognitron

Cristiane Oliveira de Santana e José Hiroki Saito


Universidade Federal de São Carlos - Departamento de Computação - Grupo de Arquitetura e
Processamento de Imagens e Sinais (GAPIS)
{cristiane_santana, saito}@dc.ufscar.br

Resumo Database). Na seção seguinte é apresentada a rede


neocognitron e sua forma de aprendizado, a seguir na
Este trabalho apresenta uma aplicação da rede terceira seção é apresentada a base de imagens faciais
neocognitron no processamento de imagens faciais num CMU-PIE Database. Na quarta seção é apresentado o
sistema de reconhecimento facial. O sistema consiste sistema de reconhecimento facial a ser utilizado nos
basicamente no uso da rede neocognitron com uma experimentos seguido pela quinta seção onde são
classe de saída, para a obtenção do vetor de realizados os experimentos. Por fim, são apresentadas
características correspondente à classe. O conjunto de as conclusões e trabalhos futuros.
vetores formam um banco de dados para a fase de
reconhecimento. Nos experimentos foi verificada a 2. Neocognitron
taxa de reconhecimento do sistema implementado.
Apesar do número reduzido de amostras de treinamento A rede neocognitron é formada por vários estágios
para cada classe, o resultado foi satisfatório. que possuem duas camadas cada um, exceto o estágio
que representa a camada de entrada: uma camada de
Abstract células-S, responsável pela extração de características e
This work shows one application of neocognitron uma camada de células-C, responsável pela tolerância
network in the face images processing on a system of às distorções do padrão de entrada. Cada camada é
face recognition. The system uses one output composta por planos celulares de mesmo tamanho.
neocognitron, to obtain the characteristic vector of the Cada estágio possui ainda um plano de células-V
corresponding input image. The resulting vectors set responsáveis por prover informação para as células-S
composes a database to be used at the recognition sobre a quantidade de atividade presente em cada região
phase. As a result it was verified the recognition rate of de entrada de cada célula-S.
the implemented system. Besides of the reduced amount Sua auto-organização é baseada em dois princípios:
of training patterns for each class, the result was aprendizado por competição onde as células competem
satisfactory. pela extração de uma característica e pelo princípio de
que uma célula vencedora (seed cell) não apenas cresce
como também controla a sua vizinhança.
1. Introdução Cada conexão possui um peso associado. As
conexões entre células-C de um estágio l-1 com as
As redes convolucionais possuem a habilidade de células-V do estágio l e as conexões de células-S de um
lidar com deformações e variações nos dados de entrada estagio l com as células-C do mesmo estágio são
devido à combinação, em sua arquitetura das idéias dos conhecidos como pesos-c e pesos-d, respectivamente,
campos receptivos, compartilhamento de pesos e invariantes e determinados no início do treinamento da
subsampling temporal ou espacial [1]. rede. Nas demais conexões entre as células-C de um
A rede neocognitron, por sua vez, é uma rede estágio l-1 com as células-S de um estágio l são
convolucional proposta por Fukushima para o representadas pelos pesos-a e as conexões entre as
reconhecimento de caracteres manuscritos [2]. Sofreu células-V de um estágio l e as células–S do mesmo
alterações ao longo do tempo sendo, em 2003, estágio são representados pelos pesos-b, ambos
aperfeiçoada para que seu treinamento pudesse ser variantes e responsáveis por armazenar as
incremental fazendo com que sua estrutura possa ser características dos padrões, e suas atualizações são
modificada numa segunda fase de treinamento [3]. obtidas segundo as equações 1 e 2:
Alguns trabalhos tem sido realizados utilizando-a como
em 1998, quando Neubauer combinou neurônios
perceptron com o neocognitron [4] ou mesmo em 2005, al (kl 1 , i, kˆl ) ql cl (i) uCl 1 (kl 1 , nˆ i) (1)
quando Saito et al. [5] aplicou a rede neocognitron no
reconhecimento facial.
b(kˆl ) ql vCl (nˆ ) (2)
O presente trabalho discute os resultados obtidos na
aplicação da rede neocognitron no reconhecimento onde n̂ e k l indicam a posição e o plano celular do
facial, usando o banco de imagens CMU-PIE (Carnegie neurônio vencedor, kl-1 o plano celular do estágio
Mellon University – Pose Illumination and Expression anterior em que o neurônio é conectado, i é a posição
da conexão dentro da região de conexão, ql é a taxa de Partindo do princípio da competição, já mencionado,
aprendizado, c/ o peso-c correspondente, ucl-1 é o valor é verificada a célula vencedora do SSP correspondente
da entrada na conexão considerada, e vcl é o valor da à célula com valor de resposta máximo. Caso esta célula
célula –V conectada. corresponda a um fator já existente, é realizada uma
Para a computação de uma célula-S, uSl(k,n), na nova busca por uma célula vencedora.
posição n, em um plano kl de um estágio l utiliza-se os Encontrada uma célula vencedora que não coincida
valores uCl-1 das células-C de todos os planos celulares com um fator já existente, seus pesos-a e pesos-b são
do estágio precedente e os respectivos pesos-a, al, reforçados e um novo plano celular é criado, semeando
numa dada área de conexão S, segundo a equação 3: células com mesmos pesos em todas as posições. Em
seguida, incrementa-se o número Kl de planos celulares
Kl 1
já treinados. Encontrado um vencedor seus pesos-a e
1 al (kl 1 , i, kl ) uCl 1 (kl 1 , n i ) pesos-b são então reforçados e um novo plano criado.
kl 1 1 i Sl
uSl (kl , n) 1
1 1 bl (kl ) vCl (n)
3. Base de imagens CMU-PIE

A base CMU-PIE contém mais de 40.000 imagens


coletadas entre outubro e dezembro de 2000. Trata-se
(3) de imagens de 68 indivíduos com treze variações de
pose, três de expressão e quarenta e três variações de
onde θ é o limiar responsável pela habilidade de extrair iluminação [6].
características onde, quanto maior o fator de inibição Cada imagem possui uma resolução de 640x486
menor sua generalização e φ como função de ativação pixels e área facial correspondente a ¼ deste total (em
definida por: torno de 320 x 243 pixels) na posição central da
imagem.
x , se x 0 (4) No desenvolvimento do presente trabalho foram
( x)
0 , se x 0 utilizadas imagens frontais de dez classes distintas de
imagens faciais, exemplificadas pela Figura 1.
As células-V são obtidas segundo a equação:

Kl 1
vCl (n) cl (i) u 2Cl 1 (kl 1 , n i)
kl 1 1 i Sl

(5)

As células-C por sua vez são obtidas através do


cálculo:

uCl (n, kl ) dl (i ).uSl (n i, kl ) (6)


i Sl

Figura 1. Exemplos de padrões utilizados e


em que a função ψ é definida como: suas respectivas classes.

x 4. Sistema de Reconhecimento Facial


, se x 0
1 x (7)
( x)
O sistema de reconhecimento facial proposto é
0, se x 0 composto dos seguintes módulos: detecção de face,
alinhamento da face detectada, extração de
Entretanto, para se realizar o treinamento dentro de características, e comparação de características com as
um estágio, para a inserção de novos planos celulares a contidas num banco de dados (Figura 2).
cada novo fator ou característica extraída, é necessário A operação do sistema consiste de duas fases. A
calcular os valores das células-S de todos os planos primeira fase é a de treinamento, que consiste na
celulares já existentes, ou seja, kl=1...Kl. Após isso, são obtenção de vetores de características das classes, que
calculados os valores das células-S para um plano são armazenados no módulo de banco de dados. A
auxiliar denominado plano de seleção de semente segunda fase é a de reconhecimento, em que a imagem
(Seed-Selection-Plane – SSP, em inglês), que contem contendo as faces a serem reconhecidas são
pequenos pesos-a e pesos-b, nas conexões de entrada, apresentadas na entrada do sistema, as mesmas são
para a obtenção de um novo fator. detectadas, alinhadas, as características são obtidas e
comparadas com os vetores contidos no banco de dados. A fase de reconhecimento foi realizada, usando a
seqüência mostrada no diagrama da figura 5, onde a
imagem da região facial a ser identificada é introduzida
na rede neocognitron. A rede é executada diversas
vezes, sendo que a cada etapa é usado um vetor de
características diferente do banco. As respostas da rede
para cada uma das etapas são comparadas entre si, e a
de maior valor corresponde à classe correspondente à
imagem de entrada.

Figura 2. Sistema de reconhecimento facial


[7].

5. Experimentos

Nos experimentos, as partes de detecção facial e


alinhamento foram facilitadas pelo uso de um
subconjunto da base de dados CMU-PIE com imagens
faciais numa determinada pose. Figura 5. Diagrama da fase de
Inicialmente, para utilização da base de dados fez-se reconhecimento.
necessário o pré-processamento a fim de obter imagens
de resolução 57 x 57 pixels da região facial devido à
utilização do simulador desenvolvido por Saito et al. 6. Resultados Obtidos
[5], cuja estrutura foi alterada para apenas uma classe
de saída como mostra a figura 3, para a obtenção dos Experimento 1 - primeiramente foram usadas as
vetores de características das classes utilizadas. mesmas amostras de imagens faciais usadas para
treinamento, para a fase de reconhecimento.
US1
O experimento obteve os resultados apresentados na
US3
US1’ UC1
US2
US2' UC2
US3’ UC3 Tabela 1 onde o termo configuração refere-se ao vetor
padrão Imagem de características obtido no treinamento das classes de
de de
entrada contraste
UG
padrões, REC refere-se ao reconhecimento dos padrões
U0
saída pertencentes à classe, NREC o não-reconhecimento de
Classe padrões pertencentes à classe e ERRO a classificação de
1x1
forma errônea de padrões não-pertencentes à classe
redução
57x57
20x20
como pertencentes à mesma.
57x57

13x13
13x13 7x7 7x7
3x3
Tabela 1. Resultados do experimento 1.
13x13 7x7
20x20 3x3 Configuração REC NREC ERRO
Figura 3. Estrutura da rede utilizada para 01: Classe 0 81,82% 18,18% -
realização dos experimentos 02: Classe 1 90,91% 9,09% -
03: Classe 2 27,23% 72,72% -
04: Classe 3 100% 0% 3,03%
Para a realização do treinamento foram escolhidas
05: Classe 4 100% 0% 3,03%
dez classes de padrões com dez padrões cada. O 06: Classe 5 81,82% 18,18% -
treinamento foi realizado com a entrada da imagem da 07: Classe 6 81,82% 18,18% -
região facial de 57x57 pixels na rede neocognitron, 08: Classe 7 100% 0% -
resultando na obtenção de um vetor de características, 09: Classe 8 100% 0% -
conforme mostra o diagrama da figura 4. O vetor de 10: Classe 9 81,82% 18,18% -
características é composto do conjunto de todos os
pesos variáveis, pesos-a e pesos-b, da rede neocognitron Como pode ser visto na Tabela 1 nas configurações
resultante. da classe 3, 4, 7 e 8 foi obtida uma taxa de 100% de
reconhecimento, ou seja, nessas configurações todos os
padrões pertencentes à classe foram reconhecidos
quando utilizadas suas configurações correspondentes.
Apenas as configurações 4 e 5 obtiveram padrões não-
pertencentes à classe sendo reconhecido como
pertencente, sendo que a porcentagem encontrada
refere-se a classificação de 3 padrões, erroneamente,
Figura 4. Diagrama da fase de treinamento.
num universo de 99 padrões não pertencentes à classe. rede em reconhecer padrões distorcidos mesmo com a
A configuração 03 obteve menor taxa de utilização de padrões não-treinados durante a fase de
reconhecimento, sendo que a porcentagem encontrada reconhecimento. Esses resultados podem ainda serem
refere-se a oito padrões num universo de 11 padrões melhorados, pelas mesmas razões descritas, com a
pertencentes à classe. utilização de maior número de padrões de treinamento,
Experimento 2 – consiste no resultado da aplicação e também com a diminuição do limiar de disparo, usado
de padrões não utilizados durante o treinamento da rede no treinamento.
na operação de reconhecimento das classes.
8. Agradecimentos
Tabela 2. Resultados do experimento 2.
Configuração Reconhecimento do padrão
não-treinado
Os autores agradecem a Fundação de Amparo à
01 Sim Pesquisa do Estado da Bahia (FAPESB) pelo apoio
02 Sim financeiro concedido.
03 Não
04 Sim 9.Referências
05 Não
06 Não [1] Lecun, Y. and Bengio, Y. “Convolutional Networks for
07 Sim Images, Speech and Neural Networks”, In: ARBIB, M. A.
08 Sim (Editor) The Handbook of Brain Theory and Neural
09 Sim Networks. 2ª ed. Cambridge: M.I.T. Press. 2003, pp. 276-279
10 Não (Série Bradford Books).

A tabela 2 apresenta os resultados obtidos neste [2] Fukushima, K. “Neocognitron: A self-organizing neural
segundo experimento em que foram obtidos 60% de network model for a mechanism of pattern recognition
reconhecimento dos padrões não apresentados durante o unaffected shift in position”. Biological Cybernetics, v.36, n.
treinamento restando 40% para os padrões não- 4, pp. 193-202, 1980.
reconhecidos.
[3] Fukushima, K “Neocognitron: A model for visual pattern
recognition”, In: ARBIB, M. A. (Editor) The Handbook of
7. Conclusões Brain Theory and Neural Networks. 2ª ed. Cambridge: M.I.T.
Press. 2003, pp. 715-719 (Série Bradford Books).
Com este trabalho a rede neocognitron mostrou-se
viável para a tarefa de reconhecimento de imagens [4] Neubauer, C. “Evaluation of Convolutional neural
faciais. networks for Visual Recognition” IEEE Transactions on
Neural Networks, v. 9, n. 4, pp. 685-696, 1998.
Observa-se que os resultados devem ser melhorados
com a utilização de maior número de padrões de [5] Saito, J. H.; Carvalho, T. V.; Hirakuri, M.; Saunite, A.;
treinamento por classe, fazendo com que a rede consiga Ide, A. N. and Abib, S.” Using CMU PIE Human Face
extrair maior número de características de cada classe, Database to a Convolutional Neural Network –
resultando numa representação mais adequada. Neocognitron”. European Symposium on Artificial Neural
A configuração 03, conforme tabela1, apresentou Networks. Bruges, pp. 491-496 2005.
maior taxa de erro de classificação que pode ser
explicada pela complexidade da imagem frente às [6] Sim, T.; Baker, S. and Bsat, M. “The CMU Pose,
demais devido a existência de barba e óculos no Illumination and Expression Database”. IEEE Transaction on
Pattern Analysis and machine Intelligence, v. 25, n. 12, pp.
indivíduo representado pela classe 2 da base CMU-PIE
1615-1618, 2003.
podendo obter melhores resultados com a diminuição
do limiar de generalização utilizado durante a fase de [7] LI, Z. S. and JAIN, A. K. “Chapter 1: Introduction.” . In:
treinamento fazendo com que a rede seja capaz de _______. Handbook of Face Recognition. New York:
realizar melhor generalização do padrão apresentado. Springer, 2005. p. 1-11
Observou-se ainda que a rede obteve bons resultados
no segundo experimento, confirmando a habilidade da

Anda mungkin juga menyukai