WVC2007

Reconhecimento Facial Utilizando a Rede Neural Neocognitron
Cristiane Oliveira de Santana e José Hiroki Saito

Universidade Federal de São Carlos - Departamento de Computação - Grupo de Arquitetura e
Processamento de Imagens e Sinais (GAPIS)
{cristiane_santana, saito}@dc.ufscar.br
Resumo Database). Na seção seguinte é apresentada a rede

neocognitron e sua forma de aprendizado, a seguir na
Este trabalho apresenta uma aplicação da rede terceira seção é apresentada a base de imagens faciais
neocognitron no processamento de imagens faciais num CMU-PIE Database. Na quarta seção é apresentado o
sistema de reconhecimento facial. O sistema consiste sistema de reconhecimento facial a ser utilizado nos
basicamente no uso da rede neocognitron com uma experimentos seguido pela quinta seção onde são
classe de saída, para a obtenção do vetor de realizados os experimentos. Por fim, são apresentadas
características correspondente à classe. O conjunto de as conclusões e trabalhos futuros.
vetores formam um banco de dados para a fase de
reconhecimento. Nos experimentos foi verificada a 2. Neocognitron
taxa de reconhecimento do sistema implementado.
Apesar do número reduzido de amostras de treinamento A rede neocognitron é formada por vários estágios
para cada classe, o resultado foi satisfatório. que possuem duas camadas cada um, exceto o estágio
que representa a camada de entrada: uma camada de
Abstract células-S, responsável pela extração de características e
This work shows one application of neocognitron uma camada de células-C, responsável pela tolerância
network in the face images processing on a system of às distorções do padrão de entrada. Cada camada é
face recognition. The system uses one output composta por planos celulares de mesmo tamanho.
neocognitron, to obtain the characteristic vector of the Cada estágio possui ainda um plano de células-V
corresponding input image. The resulting vectors set responsáveis por prover informação para as células-S
composes a database to be used at the recognition sobre a quantidade de atividade presente em cada região
phase. As a result it was verified the recognition rate of de entrada de cada célula-S.
the implemented system. Besides of the reduced amount Sua auto-organização é baseada em dois princípios:
of training patterns for each class, the result was aprendizado por competição onde as células competem
satisfactory. pela extração de uma característica e pelo princípio de
que uma célula vencedora (seed cell) não apenas cresce
como também controla a sua vizinhança.
1. Introdução Cada conexão possui um peso associado. As
conexões entre células-C de um estágio l-1 com as
As redes convolucionais possuem a habilidade de células-V do estágio l e as conexões de células-S de um
lidar com deformações e variações nos dados de entrada estagio l com as células-C do mesmo estágio são
devido à combinação, em sua arquitetura das idéias dos conhecidos como pesos-c e pesos-d, respectivamente,
campos receptivos, compartilhamento de pesos e invariantes e determinados no início do treinamento da
subsampling temporal ou espacial [1]. rede. Nas demais conexões entre as células-C de um
A rede neocognitron, por sua vez, é uma rede estágio l-1 com as células-S de um estágio l são
convolucional proposta por Fukushima para o representadas pelos pesos-a e as conexões entre as
reconhecimento de caracteres manuscritos [2]. Sofreu células-V de um estágio l e as células–S do mesmo
alterações ao longo do tempo sendo, em 2003, estágio são representados pelos pesos-b, ambos
aperfeiçoada para que seu treinamento pudesse ser variantes e responsáveis por armazenar as
incremental fazendo com que sua estrutura possa ser características dos padrões, e suas atualizações são
modificada numa segunda fase de treinamento [3]. obtidas segundo as equações 1 e 2:
Alguns trabalhos tem sido realizados utilizando-a como
em 1998, quando Neubauer combinou neurônios
perceptron com o neocognitron [4] ou mesmo em 2005, al (kl 1 , i, kˆl ) ql cl (i) uCl 1 (kl 1 , nˆ i) (1)
quando Saito et al. [5] aplicou a rede neocognitron no
reconhecimento facial.
b(kˆl ) ql vCl (nˆ ) (2)
O presente trabalho discute os resultados obtidos na
aplicação da rede neocognitron no reconhecimento onde n̂ e k l indicam a posição e o plano celular do
facial, usando o banco de imagens CMU-PIE (Carnegie neurônio vencedor, kl-1 o plano celular do estágio
Mellon University – Pose Illumination and Expression anterior em que o neurônio é conectado, i é a posição
da conexão dentro da região de conexão, ql é a taxa de Partindo do princípio da competição, já mencionado,
aprendizado, c/ o peso-c correspondente, ucl-1 é o valor é verificada a célula vencedora do SSP correspondente
da entrada na conexão considerada, e vcl é o valor da à célula com valor de resposta máximo. Caso esta célula
célula –V conectada. corresponda a um fator já existente, é realizada uma
Para a computação de uma célula-S, uSl(k,n), na nova busca por uma célula vencedora.
posição n, em um plano kl de um estágio l utiliza-se os Encontrada uma célula vencedora que não coincida
valores uCl-1 das células-C de todos os planos celulares com um fator já existente, seus pesos-a e pesos-b são
do estágio precedente e os respectivos pesos-a, al, reforçados e um novo plano celular é criado, semeando
numa dada área de conexão S, segundo a equação 3: células com mesmos pesos em todas as posições. Em
seguida, incrementa-se o número Kl de planos celulares
Kl 1
já treinados. Encontrado um vencedor seus pesos-a e
1 al (kl 1 , i, kl ) uCl 1 (kl 1 , n i ) pesos-b são então reforçados e um novo plano criado.
kl 1 1 i Sl
uSl (kl , n) 1
1 1 bl (kl ) vCl (n)
3. Base de imagens CMU-PIE
A base CMU-PIE contém mais de 40.000 imagens

coletadas entre outubro e dezembro de 2000. Trata-se
(3) de imagens de 68 indivíduos com treze variações de
pose, três de expressão e quarenta e três variações de
onde θ é o limiar responsável pela habilidade de extrair iluminação [6].
características onde, quanto maior o fator de inibição Cada imagem possui uma resolução de 640x486
menor sua generalização e φ como função de ativação pixels e área facial correspondente a ¼ deste total (em
definida por: torno de 320 x 243 pixels) na posição central da
imagem.
x , se x 0 (4) No desenvolvimento do presente trabalho foram
( x)
0 , se x 0 utilizadas imagens frontais de dez classes distintas de
imagens faciais, exemplificadas pela Figura 1.
As células-V são obtidas segundo a equação:
Kl 1
vCl (n) cl (i) u 2Cl 1 (kl 1 , n i)
kl 1 1 i Sl
(5)
As células-C por sua vez são obtidas através do

cálculo:
uCl (n, kl ) dl (i ).uSl (n i, kl ) (6)

i Sl
Figura 1. Exemplos de padrões utilizados e

em que a função ψ é definida como: suas respectivas classes.
x 4. Sistema de Reconhecimento Facial

, se x 0
1 x (7)
( x)
O sistema de reconhecimento facial proposto é
0, se x 0 composto dos seguintes módulos: detecção de face,
alinhamento da face detectada, extração de
Entretanto, para se realizar o treinamento dentro de características, e comparação de características com as
um estágio, para a inserção de novos planos celulares a contidas num banco de dados (Figura 2).
cada novo fator ou característica extraída, é necessário A operação do sistema consiste de duas fases. A
calcular os valores das células-S de todos os planos primeira fase é a de treinamento, que consiste na
celulares já existentes, ou seja, kl=1...Kl. Após isso, são obtenção de vetores de características das classes, que
calculados os valores das células-S para um plano são armazenados no módulo de banco de dados. A
auxiliar denominado plano de seleção de semente segunda fase é a de reconhecimento, em que a imagem
(Seed-Selection-Plane – SSP, em inglês), que contem contendo as faces a serem reconhecidas são
pequenos pesos-a e pesos-b, nas conexões de entrada, apresentadas na entrada do sistema, as mesmas são
para a obtenção de um novo fator. detectadas, alinhadas, as características são obtidas e
comparadas com os vetores contidos no banco de dados. A fase de reconhecimento foi realizada, usando a
seqüência mostrada no diagrama da figura 5, onde a
imagem da região facial a ser identificada é introduzida
na rede neocognitron. A rede é executada diversas
vezes, sendo que a cada etapa é usado um vetor de
características diferente do banco. As respostas da rede
para cada uma das etapas são comparadas entre si, e a
de maior valor corresponde à classe correspondente à
imagem de entrada.
Figura 2. Sistema de reconhecimento facial

[7].
5. Experimentos
Nos experimentos, as partes de detecção facial e

alinhamento foram facilitadas pelo uso de um
subconjunto da base de dados CMU-PIE com imagens
faciais numa determinada pose. Figura 5. Diagrama da fase de
Inicialmente, para utilização da base de dados fez-se reconhecimento.
necessário o pré-processamento a fim de obter imagens
de resolução 57 x 57 pixels da região facial devido à
utilização do simulador desenvolvido por Saito et al. 6. Resultados Obtidos
[5], cuja estrutura foi alterada para apenas uma classe
de saída como mostra a figura 3, para a obtenção dos Experimento 1 - primeiramente foram usadas as
vetores de características das classes utilizadas. mesmas amostras de imagens faciais usadas para
treinamento, para a fase de reconhecimento.
US1
O experimento obteve os resultados apresentados na
US3
US1’ UC1
US2
US2' UC2
US3’ UC3 Tabela 1 onde o termo configuração refere-se ao vetor
padrão Imagem de características obtido no treinamento das classes de
de de
entrada contraste
UG
padrões, REC refere-se ao reconhecimento dos padrões
U0
saída pertencentes à classe, NREC o não-reconhecimento de
Classe padrões pertencentes à classe e ERRO a classificação de
1x1
forma errônea de padrões não-pertencentes à classe
redução
57x57
20x20
como pertencentes à mesma.
57x57
13x13
13x13 7x7 7x7
3x3
Tabela 1. Resultados do experimento 1.
13x13 7x7
20x20 3x3 Configuração REC NREC ERRO
Figura 3. Estrutura da rede utilizada para 01: Classe 0 81,82% 18,18% -
realização dos experimentos 02: Classe 1 90,91% 9,09% -
03: Classe 2 27,23% 72,72% -
04: Classe 3 100% 0% 3,03%
Para a realização do treinamento foram escolhidas
05: Classe 4 100% 0% 3,03%
dez classes de padrões com dez padrões cada. O 06: Classe 5 81,82% 18,18% -
treinamento foi realizado com a entrada da imagem da 07: Classe 6 81,82% 18,18% -
região facial de 57x57 pixels na rede neocognitron, 08: Classe 7 100% 0% -
resultando na obtenção de um vetor de características, 09: Classe 8 100% 0% -
conforme mostra o diagrama da figura 4. O vetor de 10: Classe 9 81,82% 18,18% -
características é composto do conjunto de todos os
pesos variáveis, pesos-a e pesos-b, da rede neocognitron Como pode ser visto na Tabela 1 nas configurações
resultante. da classe 3, 4, 7 e 8 foi obtida uma taxa de 100% de
reconhecimento, ou seja, nessas configurações todos os
padrões pertencentes à classe foram reconhecidos
quando utilizadas suas configurações correspondentes.
Apenas as configurações 4 e 5 obtiveram padrões não-
pertencentes à classe sendo reconhecido como
pertencente, sendo que a porcentagem encontrada
refere-se a classificação de 3 padrões, erroneamente,
Figura 4. Diagrama da fase de treinamento.
num universo de 99 padrões não pertencentes à classe. rede em reconhecer padrões distorcidos mesmo com a
A configuração 03 obteve menor taxa de utilização de padrões não-treinados durante a fase de
reconhecimento, sendo que a porcentagem encontrada reconhecimento. Esses resultados podem ainda serem
refere-se a oito padrões num universo de 11 padrões melhorados, pelas mesmas razões descritas, com a
pertencentes à classe. utilização de maior número de padrões de treinamento,
Experimento 2 – consiste no resultado da aplicação e também com a diminuição do limiar de disparo, usado
de padrões não utilizados durante o treinamento da rede no treinamento.
na operação de reconhecimento das classes.
8. Agradecimentos
Tabela 2. Resultados do experimento 2.
Configuração Reconhecimento do padrão
não-treinado
Os autores agradecem a Fundação de Amparo à
01 Sim Pesquisa do Estado da Bahia (FAPESB) pelo apoio
02 Sim financeiro concedido.
03 Não
04 Sim 9.Referências
05 Não
06 Não [1] Lecun, Y. and Bengio, Y. “Convolutional Networks for
07 Sim Images, Speech and Neural Networks”, In: ARBIB, M. A.
08 Sim (Editor) The Handbook of Brain Theory and Neural
09 Sim Networks. 2ª ed. Cambridge: M.I.T. Press. 2003, pp. 276-279
10 Não (Série Bradford Books).
A tabela 2 apresenta os resultados obtidos neste [2] Fukushima, K. “Neocognitron: A self-organizing neural
segundo experimento em que foram obtidos 60% de network model for a mechanism of pattern recognition
reconhecimento dos padrões não apresentados durante o unaffected shift in position”. Biological Cybernetics, v.36, n.
treinamento restando 40% para os padrões não- 4, pp. 193-202, 1980.
reconhecidos.
[3] Fukushima, K “Neocognitron: A model for visual pattern
recognition”, In: ARBIB, M. A. (Editor) The Handbook of
7. Conclusões Brain Theory and Neural Networks. 2ª ed. Cambridge: M.I.T.
Press. 2003, pp. 715-719 (Série Bradford Books).
Com este trabalho a rede neocognitron mostrou-se
viável para a tarefa de reconhecimento de imagens [4] Neubauer, C. “Evaluation of Convolutional neural
faciais. networks for Visual Recognition” IEEE Transactions on
Neural Networks, v. 9, n. 4, pp. 685-696, 1998.
Observa-se que os resultados devem ser melhorados
com a utilização de maior número de padrões de [5] Saito, J. H.; Carvalho, T. V.; Hirakuri, M.; Saunite, A.;
treinamento por classe, fazendo com que a rede consiga Ide, A. N. and Abib, S.” Using CMU PIE Human Face
extrair maior número de características de cada classe, Database to a Convolutional Neural Network –
resultando numa representação mais adequada. Neocognitron”. European Symposium on Artificial Neural
A configuração 03, conforme tabela1, apresentou Networks. Bruges, pp. 491-496 2005.
maior taxa de erro de classificação que pode ser
explicada pela complexidade da imagem frente às [6] Sim, T.; Baker, S. and Bsat, M. “The CMU Pose,
demais devido a existência de barba e óculos no Illumination and Expression Database”. IEEE Transaction on
Pattern Analysis and machine Intelligence, v. 25, n. 12, pp.
indivíduo representado pela classe 2 da base CMU-PIE
1615-1618, 2003.
podendo obter melhores resultados com a diminuição
do limiar de generalização utilizado durante a fase de [7] LI, Z. S. and JAIN, A. K. “Chapter 1: Introduction.” . In:
treinamento fazendo com que a rede seja capaz de _______. Handbook of Face Recognition. New York:
realizar melhor generalização do padrão apresentado. Springer, 2005. p. 1-11
Observou-se ainda que a rede obteve bons resultados
no segundo experimento, confirmando a habilidade da

WVC2007

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

WVC2007

Diunggah oleh

Hak Cipta:

Format Tersedia

Reconhecimento Facial Utilizando a Rede Neural Neocognitron

Cristiane Oliveira de Santana e José Hiroki Saito

Resumo Database). Na seção seguinte é apresentada a rede

A base CMU-PIE contém mais de 40.000 imagens

As células-C por sua vez são obtidas através do

uCl (n, kl ) dl (i ).uSl (n i, kl ) (6)

Figura 1. Exemplos de padrões utilizados e

x 4. Sistema de Reconhecimento Facial

Figura 2. Sistema de reconhecimento facial

Nos experimentos, as partes de detecção facial e

Anda mungkin juga menyukai