AO DE HEUR
AO DO APRENDIZADO
POR REFOR CO NA LIGA SIMULADA ROBOCUP 2D
Samir Elias Hachem Kerbage
Angulo
entre o
oponente
mais
pr oximo,
a bola e o
aliado
mais
pr oximo
Distancia
do agente
ao
jogador
do
mesmo
time mais
pr oximo
Distancia
do agente
ao
jogador
oponente
mais
pr oximo
Posi c ao
do
oponente
mais
pr oximo
em
rela c ao
ao agente
Tabela 1: Chave de estados
;
Driblar na direcao 0
;
Driblar na direcao -30
;
Tocar para um jogador do mesmo time mel-
hor posicionado.
2.3 Denicao dos reforcos
Reforcos com avanco em direcao ao gol adversario:
Gol feito: +50;
Posse da bola: +10;
Adversario toma a bola: -10;
Adversario marca gol: -100.
Reforcos sem avanco:
Posse da bola: +5;
Adversario toma a bola: -20;
Adversario marca gol: -100.
3 Implementacao da Estrategia
Para realiza cao da estrategia descrita na se cao
2 foram feitas algumas adaptacoes no time base
original do UvA Trilearn com as seguintes alter-
acoes:
Encontrar oponente mais proximo e retornar
sua posicao;
Encontrar jogador do mesmo time mais prox-
imo e retornar sua posi cao;
Retornar distancia do agente `a bola;
Retornar distancia do jogador do mesmo time
mais proximo;
Retornar distancia do oponente mais prox-
imo.
Alem disso, foram implementadas as classes
descritas a seguir.
3.1 Classe Matriz
Nesta classe foram concentrados os metodos para
manipulacao e armazenamento do conhecimento
adquirido durante os jogos. No incio de uma par-
tida o agente instancia uma Matriz e a carrega
com as experiencias que estao armazenadas num
arquivo comum para toda a equipe. Esta matriz
e atualizada pelo agente que ao nal da partida
a armazena num arquivo referente a este agente.
Como numa partida estao envolvidos 11 agentes
do time em questao, sao salvos 11 arquivos con-
tendo as experiencias obtidas por cada um dos
agentes durante uma partida completa.
3.2 Classe Crtico
Esta classe implementa o algoritimo Q-Learning
de aprendizado por reforco. Neste metodo, para
cada acao do agente e computado uma recom-
pensa e o valor esperado ao seguir a melhor
poltica, que e aprendida por meio da interacao
com o ambiente e, assim, aprendidos quais as mel-
hores para chegar a um objetivo.
E nesta classe
,portanto, onde ocorre a atualizacao da Matriz
de estados, onde e calculado o novo valor para
esta atualizacao com base nos valores de reforcos
e parametros do algoritmo (Figura 1).
4 Implementacao das Heursticas
A estrategia de aprendizado por reforco descrita
na secao 2 se limita a decidir a melhor acao a
ser executada quando o jogador possui a posse da
bola porem, devido `a complexidade que envolve
um jogo de futebol, essa estrategia nao e suciente
para garantir um bom desempenho no jogos pois
Modelagem
Figura 1: Arquitetura de camadas do time
nao aborda algumas decisoes importantes na par-
tida, como a estrategia de posicionamento dos jo-
gadores no campo e o que o jogador deve fazer
quando nao possui a posse de bola. Alem disso,
com a estrategia implementada o jogador so pode
fazer o passe para o jogador mais proximo dele,
mas nem sempre o jogador mais proximo e o mel-
hor jogador para fazer o toque. Podemos ter um
jogador em uma posicao estrategica, ou sem mar-
ca cao, que tenha maiores chances de conduzir a
bola para o gol.
4.1 Escolha do melhor jogador para fazer o passe
A heurstica busca o jogador mais proximo que
nao tenha nenhum adversario na linha entre ele e
a bola, ou que esteja livre para chutar `a gol.
4.2 Posicionamento dos jogadores no campo
Para melhorar a dinamica do time, criamos roti-
nas que posicionam os jogadores mais rapidos nas
laterais do campo, facilitando o deslocamento dos
jogadores e a condu cao da bola `a area inimiga.
4.3 Chutar a gol sempre que houver condicoes
favoraveis
Esta heurstica altera a acao a ser executada caso
o jogador detecte que a linha entre a bola e o gol
se encontra livre, fazendo com que ele chute com
toda a potencia em direcao ao gol, aumentando as
chances de fazer um gol.
4.4 Denicao da melhor trajet oria do chute `a gol
Foi implementado um algoritmo de deteccao da
regiao mais livre do gol para direcionar os chutes.
Ele leva em consideracao tres angulos formados
entre: (i) trave esquerda, bola e goleiro; (ii) trave
direita, bola e goleiro; e (iii) trave esquerda, bola
e trave direita.
4.5 Otimizacao do tiro de meta
O goleiro analisa a posicao de todos os jogadores
mais proximos dos dois times e busca pelo jogador
mais proximo que esteja livre de marcacao ou com
uma linha livre de chute. Caso nao encontre, ele
chuta para a regiao com menos jogadores do time
adversario.
5 Treinamentos e Resultados
Neste trabalho, foram realizados no total cerca de
18000 jogos, agrupados em series de treinamen-
tos com e sem heursticas. O treinamento do time
requer muitos jogos para um efetivo aprendizado.
Como cada jogo e composto de 6000 ciclos o que
requer aproximadamente 12 minutos de duracao
alem de necessitarem de a cao humana para ini-
ciar, a realiza cao de varios jogos se torna muito
demorada e dispendiosa se for feita atraves de co-
mandos manuais. Implementar a automacao dos
treinos foi entao uma necessidade para o progresso
dos treinamentos e analise de desempenho.
As estrategias de treinamentos utilizadas en-
volviam a modica cao da taxa de explora cao
do algoritmo -Greedy. Como explicado anteri-
ormente, essa e a taxa na qual o agente executa
a melhor a cao, de acordo com a matriz de esta-
dos x acoes do Q-Learning, com probabilidade 1-
e escolhe uma a cao aleatoria com probabilidade
. Ou seja, quanto maior o valor de , maior a
quantidade de jogadas aleatorias na partida. Esta
solucao foi adotada para que a matriz de estados
x a coes seja bastante explorada e preenchida du-
rante os treinamentos.
Foi adotada uma estrategia de comecar com
uma taxa de explora cao de 100%, ou seja, todas
as acoes executadas sendo aleatorias, e diminuir
gradualmente ate chegar em 0%.
6 Q-Learning sem Heurstica
Figura 2: Resultado do saldo de gols para o algo-
ritmo Q-Learning sem heursticas
Os resultados mostram que a implementacao
de um algoritmo de aprendizado por refor co
sem utilizacao de heursticas nao apresentou uma
evolucao satisfatoria.
7 Q-Learning com Heursticas - 11
jogadores
Apos a implementacao das heursticas, uma nova
secao de treinamentos foi realizada para a eca-
cia das mesmas, bem como comparar a evolu cao.
Os resultados revelam como a implementacao de
heursticas pode melhorar os resultados do algo-
ritmo desde as primeiras iteracoes, ja que a media
do saldo de gols por partida foi de -6,7 para -3,5.
Figura 3: Resultado do saldo de gols para o al-
goritmo HAQL em uma partida com 11 jogarores
em cada time
8 Q-Learning com Heursticas - 5
jogadores
Apesar de podermos constatar uma melhora com
a implementacao das heursticas, os treinamen-
tos realizados anteriormente nao foram sucientes
para identicar a convergencia do algoritmo.
Visando reduzir a complexidade do jogo, real-
izamos uma se cao de treinamento com apenas o
goleiro e 4 jogadores em cada time. Os resultados
apresentaram uma melhora expressiva em relacao
aos jogos com o time completo e pode-se vericar
a convergencia do aprendizado para uma poltica
otima.
Figura 4: Resultado do saldo de gols para o algo-
ritmo HAQL em uma partida com 5 jogarores em
cada time
Figura 5: Comparacao do resultado das secoes de
treinamento com e sem Heursticas
9 Compara cao dos resultados
O graco da gura 5 compara as 3 secoes treina-
mento. Podemos concluir que a ecacia da im-
plementacao de heursticas para acelarar o apren-
dizado por reforco e alta, de forma que ja nos
primeiros jogos os resultados do time utilizando
heursticas e bem melhor do que os do time que
utiliza aprendizado sem heursticas.
Nota-se tambem que ao reduzir a quantidade
de jogadores em campo, os resultados sao mel-
hores e convergem mais rapido. Isso pode ter ocor-
rido porque com menos jogadores se tem mais es-
paco no campo e a corretude na condu cao da bola
e chute `a gol sao habilidades que sao exercitadas
com mais frequencia.
10 Conclusoes
Este trabalho trata-se do primeiro esforco do Lab-
oratorio de Robotica e Inteligencia Articial do
IME no sentido de criar um time para a liga sim-
ulada Robocup 2D que possa se tornar compet-
itivo ao longo dos anos. Para tanto, o primeiro
objetivo visado foi a implementar estrategias de
aprendizado por reforco acelerado por heursticas,
utilizando-se do algoritmo QLearning, e heurs-
ticas que tiveram sua eciencia comprovada e que
servirao de base para aperfei coamentos futuros.
Referencias
de Boer, R. and Kok, J. (2002). The incremental
development of a synthetic multi-agent sys-
tem: The uva trilearn 2001 robotic soccer
simulation team.
Kitano, H., Asada, M., Kuniyoshi, Y., Noda, I.
and Osawa, E. (1995). Robocup: The robot
world cup initiative, IJCAI-95 Workshop on
Entertainment and AI/Alife pp. 1924.
Norvig, P. and Russel, S. J. (2004). Inteligencia
Articial, 2 edn, Elsevier.