xLi ≤ xU i ≤ xl i , i = 1, ..., n
◦ M: número de objetivos;
Meta-heurísticas utilizam:
◦ Conhecimento histórico:
Resultados anteriormente adquiridos pelo algoritmo;
◦ Escolhas aleatórias:
Usado para evitar resultados prematuros (ótimos
locais).
Frente de Pareto – Origem
Vilfredo Pareto
•Nasceu:
•Em 15 de julho de 1848 em Paris, França;
•Morreu:
•Em 19 de agosto de 1923.
Vilfredo Pareto
Vilfredo Pareto nasceu em Paris, França, mas
foi educado na Itália;
Se formou engenheiro pela escola politécnica
de Turim;
Pareto introduziu o conceito de Ótimo de
Pareto e ajudou o desenvolvimento
da microeconomia com a idéia de Curva de
Indiferença.
Pareto dominância: uma solução x(1) é dita
dominar uma solução x(2) se as seguintes
condições forem satisfeitas:
Conjunto Pareto-ótimo:
{3, 5, 4}
Frente de Pareto
Frente de Pareto com três objetivos:
Extraido de: de Casto, R.E. Otimização com Multi-objetivos Via Algoritmos Genéricos de
Pareto, Tese de Doutorado. COPPE/UFRJ, 2001.
Foi proposto como uma abordagem multi-
agente para problemas difíceis de otimização
combinatória.
Q constante de projeto;
Lk comprimento do tour da k-ésima
formiga.
O ACS foi introduzido para melhorar o desempenho do AS. A
contribuição mais importante foi a atualização do feromônio
feita imediatamente após a formiga atravessar a aresta.
40
O objetivo principal da aprendizagem por
reforço é a prender uma política de ações *
ótima, que maximiza a função V (V*) ou a
função Q (Q*)
* = argmax[V(s)]
Em outras palavras,sua finalidade é descobrir
a maneira o agente deve agir para maximizar
as suas recompensas futuras.
É possível determinar * se eu conheço Q*
◦ não precisando conhecer (função de transição
de estados) nem r
◦ *(s) = argmaxa[Q(s,a)]
não é função de nem de r
Logo é possível determinar a função Q
ótima (valor das ações) sem considerar V
◦ Q(st,at) = r(st,at) + V*((st,at) )
= r(st,at) + maxa’ [Q(st+1,a’)]
onde é o fator de desconto.
42
Atualiza-se Q(st) após observar o estado st+1
e recompensa recebida
Q(s1,aright) = r + maxa’Q(s2,a’)
= 0 + 0.9 max{63,81,100}
= 90
43
Proposto por (Gambardella, 1995) é uma
combinação do ACO com Q-Learning.
Utilização de m agentes inves de apenas 1
agente.
Utiliza um peso Heuristico para determinar o
quão bom é a mudança de estado S para o
estado S’
A escolha do proximo estado é de acordo
com a formula:
A necessidade de dispersar os agentes é de extrema
importância para todas as possíveis soluções analisadas
Para isto temos a seguinte função de atualização :
(Mariano CE, Morales E. , 1999)
A ideia básica do MOAQ é similiar ao
algoritmo Ant-Q , contudo utiliza uma
família de agentes para cada objetivo.
Todas famílias possuem o mesmo número de
agentes.
Como no Ant-Q , todas os agentes de uma
família tentam achar a solução ao mesmo
Tempo.
As soluções encontradas influenciam o ponto
de partida da próxima família.
Shaffer’s F2;
Irrigação de água;
Usina de Angra.
A seleção de culturas e áreas cultivadas para
otimizar a produtividade e uso de água;
Maximizar o lucro.
Duas famílias de agentes são propostas;
Ln = Tamanho da rede
Fórmula para o aprendizado