Anda di halaman 1dari 87

Arnaldo Jr, Ericson, Felipe Costa

Guilhermo e Pedro Henrique


 Problemas Multi-Objetivos
 Frente de Pareto
 Dominância
 Meta- Heurísticas
 Algoritmos de Formigas
 Ant-Q
 MOAQ
 Trabalhos Utilizando MOAQ
 Problemas de Otimização Multi-Objetivo
(MOOP - Multi Objective Optimization
Problems) são problemas que visam obter um
conjunto de soluções ótimas levando em
consideração dois ou mais objetivos.
 Um MOOP possui características que devemos
citar:

◦ Espaço de busca maior;

◦ A noção de solução ótima é ampliada para vários


objetivos;

◦ Usualmente os diferentes objetivos são conflitantes.


Um exemplo de problema multi-
objetivo são as metas que o
governo tenta atingir.

São objetivos para melhorar a vida


dos brasileiros.

Mas de qual a melhor forma de


investir o dinheiro?
Um exemplo de problema multi-
objetivo são as metas que o
governo tenta atingir.

São objetivos para melhorar a vida


dos brasileiros.

Mas de qual a melhor forma de


investir o dinheiro?

Objetivo: Bem estar Social!


 Representação matemática de um problema de
otimização:

Minx∈ Rn[ f 1(x), f 2(x), ...,f M(x) ]


s.a.
gj(x) ≥ 0, j =1, ...J
hk(x) = 0, k = 1, ..., K

xLi ≤ xU i ≤ xl i , i = 1, ..., n

Com fi:Rn → R, gj:Rn → R e hk:Rn → R.


 Onde:
◦ x: ∈ Rn é o vetor de variáveis de decisão;

◦ n: número de variáveis de decisão;

◦ M: número de objetivos;

◦ J: número restrições de desigualdade;

◦ K: número restrições de igualdade;


 São técnicas heurísticas usadas de formas
genérica para maximizar (ou minimizar) uma
função cujas variáveis (objetivos) tem certas
restrições e/ou são conflitantes.

 Geralmente usadas para resolver problemas


de otimização que não se conhece algoritmos
eficientes.
Como funciona?

 Meta-heurísticas utilizam:
◦ Conhecimento histórico:
 Resultados anteriormente adquiridos pelo algoritmo;
◦ Escolhas aleatórias:
 Usado para evitar resultados prematuros (ótimos
locais).
Frente de Pareto – Origem

Vilfredo Pareto
•Nasceu:
•Em 15 de julho de 1848 em Paris, França;
•Morreu:
•Em 19 de agosto de 1923.

Vilfredo Pareto
 Vilfredo Pareto nasceu em Paris, França, mas
foi educado na Itália;
 Se formou engenheiro pela escola politécnica
de Turim;
 Pareto introduziu o conceito de Ótimo de
Pareto e ajudou o desenvolvimento
da microeconomia com a idéia de Curva de
Indiferença.
 Pareto dominância: uma solução x(1) é dita
dominar uma solução x(2) se as seguintes
condições forem satisfeitas:

1. A solução x(1) não é pior que a solução x(2) em


nenhum dos objetivos, ou seja f m(x(1) ) ≤f m (x(2))
para todo m = 1,..., M;
2. A solução x(1) é estritamente melhor que a solução
x(2) em pelo menos um objetivo f m(x(1)) <f m (x(1))
para algum m ∈ {1,..., M}.

Obs.: M ⇨ número de objetivos.


 Solução Pareto-ótima: é uma solução não
dominada por nenhuma outra solução
factível;
 Conjunto Pareto-ótimo: é formado pelo
conjunto de soluções não-dominadas, dentre
as soluções factíveis. Conseqüentemente,
essas soluções não dominam umas as outras;
 Frente de Pareto, Fronteira de Pareto ou
Pareto Frontier: é formada pelos pontos no
espaço que corresponde ao conjunto Pareto-
ótimo.
 Ótimo local: é uma solução que domina
apenas um grupo de soluções. Isso não quer
dizer que ela é a pareto-ótima;

 O uso de aleatoriedade nos algoritmos de


multi-objetivos é usado para fugir dessas
falsas soluções ótimas.
 Quando queremos dizer que uma solução x(1)
domina uma solução x(2), nos podemos
expressar da seguinte forma:
x(1)≼x(2)
 Quando queremos dizer que uma solução x(1)
é estritamente melhor que uma solução x(2),
podemos expressar isso da seguinte forma:
x(1)≺x(2)
 Frente de Pareto com dois objetivos:

•Solução 4: mais cara e


mais confortável;
•Solução 3: menor custo e
pouco confortável;
•Solução 5 tão cara
quanto a solução 1. Mas a
solução 5 é mais
confortável que a 1;
•Solução 2: cara e pouco
confortável.
 Frente de Pareto com dois objetivos:

Relações de Pareto dominância


5 ≼ 1≼ 2
3≼2
 Frente de Pareto com dois objetivos:

Conjunto Pareto-ótimo:
{3, 5, 4}

Frente de Pareto
 Frente de Pareto com três objetivos:

Extraido de: de Casto, R.E. Otimização com Multi-objetivos Via Algoritmos Genéricos de
Pareto, Tese de Doutorado. COPPE/UFRJ, 2001.
 Foi proposto como uma abordagem multi-
agente para problemas difíceis de otimização
combinatória.

 Aplicações recentes abordam problemas como


o roteamento de veículo e em redes de
comunicações, ordenação sequêncial e
coloração de grafos.

 O algoritmo das formigas foi inspirado na


observação colônias de formigas reais.
 As formigas vivem em colônias e o
comportamento delas é mais direcionado
para a sobrevivência da colônia como um
todo e não a sobrevivência de um único
individuo.

 A característica mais interessante de das


formigas é que elas são capazes de
encontrar o caminho mais curto entre a
colônia e uma fonte de alimentos.
 Enquanto a formiga caminha de sua colônia até
uma fonte de alimento ela deposita uma
substancia chamada feromônio pelo caminho,
deixando um rastro por onde ele passou.

 Elas podem sentir o feromônio, e assim ao


escolher o seu caminho, elas tendem, com uma
maior probabilidade, a seguir caminhos
marcados com uma concentração mais forte de
feromônio.
Experimento realizado por Deneuborg em 1990, para estudar o
comportamento forrageiro das formigas.

As formigas seguem um dos caminhos com igual probabilidade,


e devido a escolhas aleatórias, um dos caminhos terá mais
feromônio e atrairá mais formigas.
Se o tamanho dos caminhos forem diferentes, as
formigas irão convergir para o mais curto, pois
ela é percorrida em menos tempo e assim mais
formigas passam por ela, depositando uma
quantidade maior de feromônio.
O ACO é uma heurística baseada em probabilidade,
criada para a solução de problemas computacionais que
envolvem a procura de caminhos em grafos.
Caixeiro viajante
O AS foi o primeiro algoritmo ACO. Nele as formigas se movem ao
longo do grafo adicionando ao trajeto os nós que percorreu
formando um circuito.

A medida que as formigas percorrem o seus circuitos, cada uma


delas deposita um rastro de feromônio associado aos arcos
visitados. Isso faz com que o caminho seja mais desejável às
formigas futuras.

Elas depositam uma quantidade de feromônio proporcional a


qualidade do percurso.
 taxa da evaporação, 0< <1 ;
m  número das formigas;
Δτkij quantidade de feromônio colocado na trilha entre i e j pela formiga k;

Q  constante de projeto;
Lk  comprimento do tour da k-ésima
formiga.
O ACS foi introduzido para melhorar o desempenho do AS. A
contribuição mais importante foi a atualização do feromônio
feita imediatamente após a formiga atravessar a aresta.

τij (t) ← (1 − ϕ)τij (t)+ ϕτ0

Onde τ0 é o nível mínimo de feromônio e 0 <ϕ ≤ 1.

A formiga remove o ferômonio da aresta que acabou de


atravessar.
Isso aumenta a diversidade , pois reduz a atividade das
arestas que mais foram visitadas.
Modelo de Aprendizagem por Reforço
◦ Um agente, em um ambiente

◦ A cada instante de tempo t:


 executa uma ação a
 o agente está em um estado s
 vai para um estado s’
 recebe uma recompensa r

◦ Problema da aprendizagem por reforço:


 Como escolher uma política de ações que maximize
o total de recompensas recebidas pelo agente ?
 O agente recebe do ambiente um valor de resposta
(recompensa/reforço) obtido por meio de seu
interação junto ao estado St quando passa para o
estado St+1 . Essa recompensa(reward) avalia o
desempenho do agente no processo de
aprendizagem.
 [Tesauro, 1995] Modelagem do jogo de
gamão como um problema de
aprendizagem por reforço:
◦ Vitória: +100
◦ Derrota: – 100
◦ Zero para os demais estados do jogo (delayed
reward)
◦ Após 1 milhão de partidas contra ele mesmo,
joga tão bem quanto o melhor jogador humano
 È um retorno do ambiente sobre o
comportamento do agente, é a recompensa
que um agente recebe após uma tomada de
decisão.
 O Delayed Reward é a seqüência de ações nas
quais o agente não recebe recompensa
imediata.
 Indicada por r:(S  A) R
◦ r(s,a) indica a recompensa recebida quando se está
no estado s e se executa a ação a
 : (S  A)  S
 (s,a) indica em qual estado o agente está,
dado que:
◦ Estava no estado s
◦ executou a ação a
 A partir da função de transição, podemos definir
uma ponderação das ações/recompensas :
◦ o agente está no estado s
◦ executou uma ação a
 Após a execução desta tarefa, podemos
determinar o valor desta ação:
Q(s,a) = r(s,a) + V(s’), onde:
◦ s’ = (s,a)
◦ Onde o valor da ação é a recompensa dada por esta
ação somado ao valor do estado para onde o agente vai
devido à ação tomada multiplicada pelo fator de
desconto, no caso este valor é V(s’).
Problema Estados Ações Recompensas

Agente jogador Configurações do Mover uma #capturas –


de damas tabuleiro determinada #perdas
peça

Agente em jogo Posições/energia Mover-se em (Sangue tirado –


de luta dos lutadores, uma sangue perdido)
tempo, se está determinada
sendo atacado direção, lançar
ou não, etc... magia, dar
porrada, etc...
Agente Posição no mapa Ir para algum Ociosidade
patrulhador (atual e lugar vizinho do (tempo sem
passadas), mapa visitas) do lugar
ociosidade da visitado
vizinhança, etc... atualmente

40
 O objetivo principal da aprendizagem por
reforço é a prender uma política de ações *
ótima, que maximiza a função V (V*) ou a
função Q (Q*)
 * = argmax[V(s)]
 Em outras palavras,sua finalidade é descobrir
a maneira o agente deve agir para maximizar
as suas recompensas futuras.
 É possível determinar * se eu conheço Q*
◦ não precisando conhecer  (função de transição
de estados) nem r
◦ *(s) = argmaxa[Q(s,a)]
 não é função de  nem de r
 Logo é possível determinar a função Q
ótima (valor das ações) sem considerar V
◦ Q(st,at) = r(st,at) +  V*((st,at) )
= r(st,at) +  maxa’ [Q(st+1,a’)]
onde  é o fator de desconto.

42
 Atualiza-se Q(st) após observar o estado st+1
e recompensa recebida

 Q(s1,aright) = r + maxa’Q(s2,a’)
= 0 + 0.9 max{63,81,100}
= 90

43
 Proposto por (Gambardella, 1995) é uma
combinação do ACO com Q-Learning.
 Utilização de m agentes inves de apenas 1
agente.
 Utiliza um peso Heuristico para determinar o
quão bom é a mudança de estado S para o
estado S’
 A escolha do proximo estado é de acordo
com a formula:
 A necessidade de dispersar os agentes é de extrema
importância para todas as possíveis soluções analisadas
 Para isto temos a seguinte função de atualização :
 (Mariano CE, Morales E. , 1999)
 A ideia básica do MOAQ é similiar ao
algoritmo Ant-Q , contudo utiliza uma
família de agentes para cada objetivo.
 Todas famílias possuem o mesmo número de
agentes.
 Como no Ant-Q , todas os agentes de uma
família tentam achar a solução ao mesmo
Tempo.
As soluções encontradas influenciam o ponto
de partida da próxima família.

Uma vez que todas as famílias tenham


terminado, uma recompensa é dada as
soluções não-dominadas.

Soluções que tenham violado alguma


restrição são punidas.
 A Simple Test Function;

 Shaffer’s F2;

 Irrigação de água;

 Usina de Angra.
 A seleção de culturas e áreas cultivadas para
otimizar a produtividade e uso de água;

 A concepção da topologia da rede;

 O estabelecimento das necessidades de


água e pressões mínimas de água em cada
nó hidráulico;

 A seleção do diâmetro da tubulação para


todas as ligações entre os nós.
 Suponha que exista uma pequena área e existe
uma lista de cultivação.

 Definir conexões entre os nós tal que todos os


nós hidráulicos são conectados pelos nos de
suprimento de tal modo que todos os seus
requisitos tenham valores mínimos.

 Sendo que a demanda de água varia com o tipo


de cultivo e tamanho da área cultivada.
 Minimizar o custo da rede.

 Maximizar o lucro.
 Duas famílias de agentes são propostas;

 A família 1 procura pela topologia de menor


custo.

 A família 2 seleciona o cultivo e define a área


ótima para cada pedaço na região.
QT = Fluxo total demandado

$n = Custo da rede quando o nó y é inserido

Ln = Tamanho da rede
 Fórmula para o aprendizado

 Fórmula para a recompensa


 O valor heurístico apresentado é utilizado
para saber qual é o melhor cultivo em uma
determinada área.
 Fórmula para o aprendizado

 Fórmula para a recompensa


 Consiste em determinar o posicionamento
dos elementos combustíveis no núcleo de um
reator nuclear. Com dois objetivos.

 Maximizar a duração da queima.

 Minimizar o fator de pico.


 Foi feito em Angra I

 Contém 121 lugares para elementos.

 O valor p, em resultados, significa uma


margem de segurança. Este valor não pode
ser maior que 1.395

 O valor de C é a quantidade de Bório, quanto


mais melhor.
Dúvidas?

Anda mungkin juga menyukai