Clase1 PDF

Aprendizaje Profundo Por Refuerzo
Clase 1
Pablo Sprechmann y José Lezama
Feb 2019
Administrativo
I Clases de lunes 25 de febrero al viernes 1ero de marzo de 9:00 a 12:00 AM.

I Salón B12 (Aulario)
I Referencias bibliográficas:
I An Introduction to Reinforcement Learning, Sutton & Barto.
I http://incompleteideas.net/book/the-book-2nd.html
I Curso “Reinforcement learning” por Hado van Hasselt
I Disponibles en el canal de YouTube de DeepMind.
I Validación: trabajos prácticos (entregables):
I Formato Python notebooks.
I La letra se publicará al final de la semana en el EVA.
I Fecha lı́mite de entrega: domingo 5 de mayo.
I Las entregas se realizan a través del EVA.
I Consultas a través del EVA o presenciales a partir de abril (c/José Lezama)
Que es el aprendizaje de máquinas?
Arthur Samuel (1952):

“The studies reported here have been concerned with programming of a digital
computer to behave in a way which, if done by human beings or animals, would be
described as involving the process of learning.”
Que es el aprendizaje de máquinas?
Arthur Samuel (1952):

“The studies reported here have been concerned with programming of a digital
computer to behave in a way which, if done by human beings or animals, would be
described as involving the process of learning.”
Tom Mitchel (Machine Learning):

“El campo del aprendizaje de máquinas se ocupa de construir programas capacez de
mejorar su performance automaticamente a partir de experiencia.”
Ramas del Machine Learning
Branches of Machine Learning
Supervised Unsupervised
Learning Learning
Machine
Learning
Reinforcement
Learning
Hado van Hasselt Lecture 1: Introduction 8 / 58
David Silver
Formas de aprendizaje de máquinas
Aprendizaje supervisado
Aprendizaje no supervisado
Aprendizaje por refuerzos

I Predecir una salida dada una entrada.

I Encontrar una buena representación (o modelo) de los datos.

I Encontrar una buena representación (o modelo) de los datos.

I Aprender a elegir las acciones con el fin de alcanzar un objetivo descrito como
maximizar alguna noción de recompensa acumulada.
Formas de aprendizaje supervisado
Observamos un conjunto de pares {(x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )} donde x 2 Rd
Regresión: La salida deseada es un número real y 2 R o un vector de números reales y 2 Rm .

I Predecir la temperatura al medio dı́a del jueves

I Predecir el valor de una acción en tres meses

Clasificación: La salida deseada es una variable categorica, y 2 {1, . . . , k}.



I El caso más sencillo es clasificación binaria, k = 2.
I Ejemplos: clasificación de imágenes, reconocimiento de voz.


Predicción estructurada: La salida deseada es un objeto con estructora, e.g. grafo



Predicción estructurada: La salida deseada es un objeto con estructora, e.g. grafo

I Estimacion de posiciones humanas en imagenes

Proceso de aprendizaje:
I Clase de modelos F, de forma que f (x) ⇡ y
I Una medida discrepancia, L(f (x), y ), entre predicciones f (x) y objetivos o targets y .
I Método para elegir f 2 F de forma de minimizar:
n
X
L(f (xi ), yi )
i=1
Proceso de aprendizaje:
I Clase de modelos F, de forma que f (x) ⇡ y
I Una medida discrepancia, L(f (x), y ), entre predicciones f (x) y objetivos o targets y .
I Método para elegir f 2 F de forma de minimizar:
n
X
L(f (xi ), yi )
i=1
Generalización:
I Dado x utilizar los datos de entrenamiento {(xi , yi )}i para predecir f (x).
Regresion lineal
I Datos de entrenamiento: {(xi , yi )}i .

I Familia de modelos: funciones lineales. Parámetros: a y b
I Predicción: f (x) = ax + b
I Función objetivo: L(f (x), y ) = 12 (ax + b y )2
I Elegimos a y b que minimicen la discrepancia en el conjunto de entrenamiento
Curse of dimensionality
I Datos x 2 Rn , altı́sima dimensión e.g. n = 106
I En altas dimensiones: los puntos estan aislados unos de otros
I En altas dimensiones: los puntos estan aislados unos de otros
I Solucion: utilizar representaciones x
I Invarianza: |f (x) 0
f (x )| debe variar poco relativo a || (x) (x 0 )||2
Aprendizaje profundo
Una clase de representaciones paramétricas no lineales capaces de codificar el
caracterı́stias (o conocimiento) de problema y de ser optimizadas de forma eficiente (a
enorme escala) usand metodos de descenso de gradiente estocástico.
I ImageNet 2012: Krizhevsky, Sutskever, Hinton ganaron la competicion por

enorme margen
I Gran impacto en los últimos 10 años gracias al aumento de cantidad de datos y
capacidad de cómputo
I Estado del arte en diversas disciplinas
I Procesamiento de audio: reconocimiento de voz, TTS, etc
I Visión por computadoras: clasificación de imágenes, video, segmentación
I Traducción, modelos de lenguaje, etc
I Impacto en gran cantidad de aplicaciones prácticas: medicina, self-driving cars,
etc etc
Large-Scale Deep Learning With TensorFlow, Je↵ Dean 2016

Aprendizaje profundo por refuerzos
I DQN de Mnih et al 2014 fue el momento

“Imagenet”
I Desde entonces se han logrado grandes avances

I Alpha Go series
I Roboótica
I StarCraft
Agenda
1. ¿Qué es Aprendizaje por Refuerzo (RL)?

2. Conceptos básicos
3. Desafı́os en Aprendizaje por Refuerzo
¿Qué es Aprendizaje por Refuerzo?
I Los humanos, como otros animales inteligentes, aprendemos interactuando con

nuestro ambiente

nuestro ambiente
I Esto difiere de otras formas de aprendizaje
I Es activo, en vez de pasivo
I Las interacciones son secuenciales - interacciones futuras dependen de decisiones
anteriores

nuestro ambiente
anteriores
I Es un aprendizaje orientado a un objetivo

nuestro ambiente
anteriores
I Es un aprendizaje orientado a un objetivo
I Podemos aprender sin ejemplos de comportamiento óptimo
Loop de interacción
The Interaction Loop
Hado van Hasselt

I Hay (al menos) dos razones para este tipo de aprendizaje


1. Encontrar soluciones desconocidas a priori
e.g. “escribir” un programa capaz de jugar al Go mejor que cualquier humano
2. Encontrar soluciones de forma continuada para circunstancias no previstas
previamente

previamente
I Aprendizaje por Refuerzo busca encontrar soluciones para ambos casos

previamente
I Aprendizaje por Refuerzo busca encontrar soluciones para ambos casos
I Notar que el segundo punto no es unicamente generalización, es aprender de
forma eficiente durante la operación
1. Es la ciencia de aprender a tomar decisiones para alcanzar un objetivo a partir de

interacciones

interacciones
2. Require pensar en
I ... predecir (a largo plazo) las consecuencias de las acciones
I ... obtener experiencia
I ... manejar la incertidumbre

interacciones
2. Require pensar en
I ... predecir (a largo plazo) las consecuencias de las acciones
I ... obtener experiencia
I ... manejar la incertidumbre
3. La aplicabilidad potencial es enorme

AprendizajeMany
por refuerzo
Faces of Reinforcement Learning
Computer Science
Engineering Neuroscience
Machine
Learning
Optimal Reward
Control System
Reinforcement
Learning
Operations Classical/Operant
Research Conditioning
Bounded
Mathematics Psychology
Rationality
Economics
David Silver
Ramas del Machine Learning
Branches of Machine Learning
Supervised Unsupervised
Learning Learning
Machine
Learning
Reinforcement
Learning
David Silver
Caracterı́sticas del Aprendizaje por Refuerzo
¿En qué se diferencia el Aprendizaje por Refuerzo de otros paradigmas de machine

learning?

learning?
I No hay supervisión, solo una señal de recompensa

learning?
I Descubrir estructura puede ser una parte importante en RL pero por si solo no
alcanza para maximizar las recompensas

learning?
I La realimentación puede ser demorada, no instantánea

learning?
I El tiempo realmente importa (sequencial, datos no i.i.d.)

learning?
I Las acciones del agente afectan los subsecuentes datos que recibe

learning?
I Explotacion vs. Exploración: es un problema único de RL

learning?
I Explotacion vs. Exploración: es un problema único de RL
I RL considera explicitamente todo el problema de una agente interactuando con un
ambiente incierto
Ejemplos de problemas de decisión
I Ejemplos:
I Volar un helicóptero
I Manejar un portafolio de inversión
I Hacer que un robot camine
I Jugar videojuegos o juegos de mesa
I Todos estos son problemas de aprendizaje por refuerzo

(independientmente de qué método se utilice para resolverlos)
Some Reinforcement Learning Success Stories
Ejemplos
Kohl and Stone, 2004 Ng et al, 2004 Tedrake et al, 2005 Kober and Peters, 2009
Silver et al, 2014 (DPG)

Lillicrap et al, 2015 (DDPG) Schulman et al, Levine*, Finn*, et Silver*, Huang*, et
2016 (TRPO + GAE) al, 2016 al, 2016
Mnih et al 2013 (DQN)
(GPS) (AlphaGo)
Mnih et al, 2015 (A3C)
Pieter Abbeel
Enfoques a la inteligencia artificial
1. Aprendizaje vs. diseño a mano
Demis Hassabis, RSA Talk:“Artificial Intelligence and the Future”

2. General vs. especı́fico

3. Conectado a tierra vs. basado en lógica

4. Activo vs. pasivo

4. Activo vs. pasivo
Aprendizaje por refuerzos profundo, elige la opción de la izquierda en todo estos puntos

Atari
I Video de DQN jugando al juego de Breakout

Conceptos Básicos
Conceptos básicos
Los conceptos básicos de un sistema de Aprendizaje por Refuerzo son:

I El Ambiente
I Una señal de Recompensa
I Un Agente, que contiene:
I Un estado
I Una polı́tica
I Una función de valor (probablemente)
I Un modelo (opcionalmente)
Agente y Ambiente
I En cada paso t el agente:

I Recibe una observación Ot (y recompensa Rt )
I Ejecuta una acción At
I El ambiente:
I Recibe la acción At
I Emite una observación Ot+1 (y recompensa Rt+1 )
Agente y Ambiente
Agente
At Ot+1 Rt+1
Environment
I En cada paso t el agente:

I Recibe una observación Ot (y recompensa Rt )
I Ejecuta una acción At
I El ambiente:
I Recibe la acción At
I Emite una observación Ot+1 (y recompensa Rt+1 )
Recompensas
I Una recompensa Rt es una señal escalar de realimentación:

I Indica qué tan bien el agente está en el paso t
I Asumamos un escenario episódico: el agente actua durante H pasos.
I El agente busca maximizar la recompensa acumulada,
H
X1
R0 + R1 + . . . + RH 1 = Rt
t=0
Recompensas
I Una recompensa Rt es una señal escalar de realimentación:

I Indica qué tan bien el agente está en el paso t
I Asumamos un escenario episódico: el agente actua durante H pasos.
I El agente busca maximizar la recompensa acumulada,
H
X1
R0 + R1 + . . . + RH 1 = Rt
t=0
El Aprendizaje por Refuerzo está basado en la hipótesis de recompensa

Definición (Hipótesis de Recompensa)
Cualquier objetivo puede ser formalizado como el resultado de maximizar una
recompensa acumulada
Estado del Ambiente
Agente
At Ot+1 Rt+1
Ambiente
St ! St+1
I La observación Ot depende del agente.

I Llamamos estado del ambiente, St , a la representación interna que el sistema
necesita para generar la siguiente observación, estado y recompensa
I Usualmente no es visible para el agente: Ot 6= St
I Incluso si es visible, puede contener mucha información irrelevante
Propiedad de Markov
Consideremos una sequencia de acciones y estados aleatorios,
Ht = S 0 , A 0 , S 1 , A 1 , . . . , St 1 , A t 1
Definición
Un proceso de control estocástico en tiempo discreto tiene la propiedad de Markov
cuando 8s 2 S, 8s 0 2 S, 8r 2 R, 8a 2 A y 8s 0:t 1 y 8a 0:t 1 ,
p(St+1 = s 0 | St = s, At = a) = p(St+1 = s 0 | Ht , St = s, At = a)
p(Ot+1 = o | St = s, At = a) = p(Ot+1 = o | Ht , St = s, At = a)
p(Rt+1 = r | St = s, At = a) = p(Rt+1 = r | Ht , St = s, At = a)
Propiedad de Markov
Consideremos una sequencia de acciones y estados aleatorios,
Ht = S 0 , A 0 , S 1 , A 1 , . . . , St 1 , A t 1
Definición
Un proceso de control estocástico en tiempo discreto tiene la propiedad de Markov
cuando 8s 2 S, 8s 0 2 S, 8r 2 R, 8a 2 A y 8s 0:t 1 y 8a 0:t 1 ,
p(St+1 = s 0 | St = s, At = a) = p(St+1 = s 0 | Ht , St = s, At = a)
p(Ot+1 = o | St = s, At = a) = p(Ot+1 = o | Ht , St = s, At = a)
p(Rt+1 = r | St = s, At = a) = p(Rt+1 = r | Ht , St = s, At = a)
I El estado captura toda la información relevante de la historia

I ”El futuro es independiente del pasado dado el presente”
I El estado es una estadı́stica suficiente del pasado
Ambientes Totalmente Observables
Observabilidad total: Supongamos que el agente

ve el estado del ambiente completo
Agente I observación = estado del ambiente
St = Ot = estado del ambiente

At Ot+1 = St+1 Rt+1
I Entonces el agente está en un proceso de
Ambiente
decisión de Markov (MDP)
St ! St+1
I Todas las siguientes clases asumen este
modelo
Ambientes Parcialmente Observables
I Observabilidad parcial: El agente obtiene información parcial

I Un robot con una cámara no conoce su posición absoluta
I Un agente jugador de póker sólo conoce las cartas a la vista

I Ahora la observación no es Markov

I Formalmente esto es un proceso de decisión de Markov parcialmente observable
(POMDP)

(POMDP)
I El estado del ambiente puede todavı́a ser Markov, pero el agente no lo sabe

(POMDP)
I El estado del ambiente puede todavı́a ser Markov, pero el agente no lo sabe
I El agente debe utilizar la historia para decidir sus acciones
H t = O0 , A 0 , R 1 , O1 , . . . , Ot 1 , A t 1 , R t , Ot
Componentes del agente

I Estado del agente
I Polı́tica
I Función de valor
I Modelo
Estado del agente
I Estado del agente: idealmente resume, Ht
Agent
a
St+1 Sta
At Ot+1 Rt+1
Ambiente
St ! St+1
Estado del agente

I El estado es una forma de memoria
Agent
a
St+1 Sta
At Ot+1 Rt+1
Ambiente
St ! St+1
Estado del agente

I El agente debe aprender su propio estado,
Agent
a
St+1 Sta aquello que es relevante para decidir qué
accioón tomar
At Ot+1 Rt+1
Ambiente
St ! St+1
Estado del agente

Agent
a
accioón tomar
At Ot+1 Rt+1 I Función de actualización del estado
a
Ambiente St+1 = f (Sta , At , Rt+1 , Ot+1 )
St ! St+1
Estado del agente

Agent
a
accioón tomar
At Ot+1 Rt+1 I Función de actualización del estado
a
Ambiente St+1 = f (Sta , At , Rt+1 , Ot+1 )
St ! St+1
I El estado del agente es tı́picamente mucho

más chico que el del ambiente
Estado del agente
El estado completo del ambiente de un laberinto

Estado del agente
Una observación potencial

Estado del agente
Una observación en otra ubicación

Estado del agente
Las dos observaciones son indistinguibles

Estado del agente
Los dos estados no son Markov
¿Cómo se podrı́a construir un estado del agente Markov en este laberinto (para
cualquier señal de recompensa)?
I Para manejar la observabilidad parcial, el agente puede construir representaciones

de estado internas adecuadas
I Para manejar la observabilidad parcial, el agente puede construir representaciones

de estado internas adecuadas
I Ejemplos de estados del agente:
I La última observación: Sta = Ot (puede no ser suficiente)
I La historia completa: Sta = Ht (puede ser demasiado grande)
I Algún estado actualizado incrementalmente: Sta = f (Sta 1 , Ot )
(Por ejemplo con una red neuronal recurrente.)
I Puede que construir/aprender un estado de agente Markov no sea posible; esto es
común!
I Lo más importante es que el estado contenga información suficiente para buenas
polı́ticas
Formalizando la interfaz RL
Agente
At St+1 Rt+1
Ambiente
St ! St+1
I Discutiremos una formulación matemática de la interacción agente-ambiente

I A ésta se le llama un proceso de decisión de Markov (MDP)
I Proveen un framework matemático muy útil
I Podremos entonces hablar claramente sobre el objetivo y cómo alcanzarlo
Proceso de decisión de Markov (MDP) de horizonte finito
I S = {s1 , . . . , s|S| }, conjunto de todos los posibles estados

I A = {a1 , . . . , a|A| }, conjunto de todas las posibles acciones
I R ⇢ [Rmin , Rmax ], es el conjunto de posibles recompensas
I p(r , s 0 |s, a) es la probabilidad conjunta de una recompensa r y un siguiente estado
s 0 , dado un estado s y una acción a
I H, una cantidad máxima (horizonte) de pasos a tomar; duracion de un episodio.
I S = {s1 , . . . , s|S| }, conjunto de todos los posibles estados

I A = {a1 , . . . , a|A| }, conjunto de todas las posibles acciones
I R ⇢ [Rmin , Rmax ], es el conjunto de posibles recompensas
I p(r , s 0 |s, a) es la probabilidad conjunta de una recompensa r y un siguiente estado
s 0 , dado un estado s y una acción a
I H, una cantidad máxima (horizonte) de pasos a tomar; duracion de un episodio.
I p define la dinámica del problema

I Las recompensas y el horizonte definen el objetivo
I A veces es útil marginalizar las transiciones de estado o la recompensa esperada:
X X X
p(s 0 | s, a) = p(s 0 , r | s, a) E [R | s, a] = r p(r , s 0 | s, a)
r r s0
Transición Transición
p(S1 |s0 , a0 ) p(S2 |s1 , a1 )
s0 s1 s2
...
Recompensa Recompensa
agente agente
p(R0 |s0 , a0 , s1 ) p(R1 |s1 , a1 , s2 )
a0 r0 a1 r1
I A cada paso, el agente toma una acción que cambia el estado del ambiente y
produce una recompensa.
Paréntesis: formulación alternativa
Controlador
Ut Xt+1 Gt
Sistema
Xt ! Xt+1
I RL: estudia cómo usar datos del pasado para mejorar la manipulación futura de un
sistema dinámico. [Recht 2018]
Controlador
Ut Xt+1 Gt
Sistema
Xt ! Xt+1
I Este es precisamente el objetivo de teorı́a de control
Controlador
Ut Xt+1 Gt
Sistema
Xt ! Xt+1
I Control asume un modelo: Xt+1 = f (Xt , Ut , !), Gt = g (Xt , Ut , !)
Controlador
Ut Xt+1 Gt
Sistema
Xt ! Xt+1
I RL intenta resolver el mismo problema que programación dinámica aproximada
Controlador
Ut Xt+1 Gt
Sistema
Xt ! Xt+1
I RL intenta resolver el mismo problema que programación dinámica aproximada
I RL asume mı́nimo conocimiento del problema, y el agente sólo puede obtener
información interactuando con el ambiente (prueba y error)
Ejemplo: robot de limpieza
I Consideremos un robot que limpia latas

I Dos estados: high (alta carga de baterı́a) o low (baja carga de baterı́a)
I Acciones: {wait, search} en high, {wait, search, recharge} en low
I La dinámica puede ser estocástica:
I p(St+1 = high | St = high, At = search) = ↵
I p(St+1 = low | St = high, At = search) = 1 ↵
I La recompensa puede ser el número de latas recogidas
Ejemplo: MDP del robot
Example: robot MDP
Sutton & Barto

Ejemplo: MDP del robot
Example: robot MDP
Sutton & Barto


I Estado del agente
I Polı́tica
I Modelo
Polı́tica del agente
I La polı́tica define el comportamiento del agente


I Estocasticidad:
I Polı́tica determinı́stica: ⇡ : S ! A
I Polı́tica estocástica: ⇡(A | S) = p(A | S)

I Estocasticidad:
I Polı́tica determinı́stica: ⇡ : S ! A
I Polı́tica estocástica: ⇡(A | S) = p(A | S)
I Estacionariedad:
I Polı́tica no-estacionaria: depende del tiempo ⇡t (A | S)
I Polı́tica estacionaria: independiente del tiempo: ⇡t = ⇡ para todo t
Objetivo del agente
I Maximizar el retorno esperado respecto a la secuencia de acciones a0 , . . . , aH 1

"H 1 # ⇢
X St+1 ⇠ p(S|St , At = at )
E R t | S0 = s con
Rt ⇠ p(R|St , At = at )
t=0
I La esperanza se calcula sobre la dinámica del problema y la polı́tica del agente

Objetivo del agente

"H 1 # ⇢
E R t | S0 = s con
t=0

I La dinámica es estocástica: el agente elige una acción luego de observar st
Objetivo del agente

"H 1 # ⇢
E R t | S0 = s con
t=0

I Esto permite al agente mitigar incertidumbre a travez de incorporar
realimentación
Objetivo del agente

"H 1 # ⇢
E R t | S0 = s con
t=0

realimentación
I Es un problema de optimización de laso cerrado
Objetivo del agente

"H 1 # ⇢
E R t | S0 = s con
t=0

realimentación
I Es un problema de optimización de laso cerrado
I No optimizamos sobre secuencias deterministicas de acciones, sino sobre una
secuancia de polı́ticas: ⇡0 , . . . , ⇡H 1 con ⇡k 2 ⇧
I Polı́tica: mapeo de cada posible estado a una acción
Retorno y episodios
I Tareas episódicas:
I Horizonte finito tiene sentido cuando la experiencia se puede sub-dividir en episodios
I El episodio termina cuando se alcanza un estado terminal, luego el agente vuelve a
un estado inicial (potencialmente aleatorio)
I Polı́ticas no-estacionarias pueden jugar un rol importante (Bertsekas et al., 1995)
I Tareas continuadas:
I La experiencia es continua, no se puede dividir naturalmente
I Las polı́ticas estacionarias aparecen de forma natural
I Puede considerar el caso episodio incluyendo estados absorventes
Retorno en tareas continuadas
I La extensión del retorno con horizonte H al caso infinito es problematica:

H
X1
Gt = lim Rt+k+1
H!1
k=0
I El retorno puede ser infinito: cómo comparar dos poliı́ticas con retorno infinito?

H
X1
Gt = lim Rt+k+1
H!1
k=0
I Una posibilidad (que se utiliza también en la práctica) es la cantidad:
H 1
1 X
Gt = lim Rt+k+1
H!1 H
k=0

H
X1
Gt = lim Rt+k+1
H!1
k=0
I Una posibilidad (que se utiliza también en la práctica) es la cantidad:
H 1
1 X
Gt = lim Rt+k+1
H!1 H
k=0
I Esta formulación es matemáticamente dificil de analizar. Preferimos utilizar

retornos descontados
Retorno descontado
I Retornos Gt : recompensa descontada total, con 2 [0, 1], a partir del instante de
tiempo t:
1
X
k
Gt = Rt+1 + Rt+2 + . . . = Rt+k+1
k=0
I Para una polı́tica estacionaria: Gt = Rt+1 + Gt+1
I Ésta es una variable aleatoria que depende del MDP y de la polı́tica
Retorno descontado
tiempo t:
1
X
k
Gt = Rt+1 + Rt+2 + . . . = Rt+k+1
k=0
I El descuento 2 [0, 1] define el valor presente de las recompensas futuras
I k
El valor marginal de recibir una recompensa R tras k + 1 instantes de tiempo es R
I Para < 1, recompensas inmediatas son más importantes que las futuras
I cerca de 0 da lugar a una evaluación ”miope”
I cerca de 1 da lugar a una evaluación ”mirando a lo lejos”
Retorno descontado
tiempo t:
1
X
k
Gt = Rt+1 + Rt+2 + . . . = Rt+k+1
k=0
I k
I El MDP está determinado por la tupla (S, A, R, p, )
Retorno descontado
tiempo t:
1
X
k
Gt = Rt+1 + Rt+2 + . . . = Rt+k+1
k=0
I k
I El MDP está determinado por la tupla (S, A, R, p, )
I Siempre hay una polı́tica óptima que es estacionaria
¿Por qué descontar?
I Matemáticamente es conveniente descontar las recompensas

I Evita retornos infinitos en procesos de Markov cı́clicos
I Recompensas inmediatas pueden de hecho ser más valorables
I El comportamiento animal/humano muestra preferencia por las recompensas
inmediatas
I A veces podemos usar procesos de recompensa de Markov sin descuento
(i.e. = 1), e.g. si sabemos que todas las secuencas terminan
I Notar que la recompensa y el descuento juntos determinan el objetivo

I Estado del agente
I Polı́tica
I Modelo
Función de valor
I La función de valor de la polı́tica ⇡ es el retorno esperado
v⇡ (s) = E [Gt | St = s, ⇡]
⇥ 2
⇤
= E Rt+1 + Rt+2 + Rt+3 + . . . | St = s, ⇡
Función de valor
v⇡ (s) = E [Gt | St = s, ⇡]
⇥ 2
⇤
= E Rt+1 + Rt+2 + Rt+3 + . . . | St = s, ⇡
I El valor de una polı́tica estacionaria tiene una forma recursiva

v⇡ (s) = E [Rt+1 + Gt+1 | St = s, ⇡]
Función de valor
v⇡ (s) = E [Gt | St = s, ⇡]
⇥ 2
⇤
= E Rt+1 + Rt+2 + Rt+3 + . . . | St = s, ⇡

v⇡ (s) = E [Rt+1 + Gt+1 | St = s, ⇡]
X XX ⇥ ⇤
= ⇡(a | s) p(r , s 0 | s, a)(r + E Gt+1 | St+1 = s 0 , ⇡ )
a r s0
I Esto se conoce como la ecuación de valor de Bellman (Bellman 1957)

Función de valor
v⇡ (s) = E [Gt | St = s, ⇡]
⇥ 2
⇤
= E Rt+1 + Rt+2 + Rt+3 + . . . | St = s, ⇡

v⇡ (s) = E [Rt+1 + Gt+1 | St = s, ⇡]
X XX ⇥ ⇤
= ⇡(a | s) p(r , s 0 | s, a)(r + E Gt+1 | St+1 = s 0 , ⇡ )
a r s0
X XX
= ⇡(a | s) p(r , s 0 | s, a)(r + v⇡ (s 0 ))
a r s0

Función de valor
v⇡ (s) = E [Gt | St = s, ⇡]
⇥ 2
⇤
= E Rt+1 + Rt+2 + Rt+3 + . . . | St = s, ⇡

v⇡ (s) = E [Rt+1 + Gt+1 | St = s, ⇡]
X XX ⇥ ⇤
= ⇡(a | s) p(r , s 0 | s, a)(r + E Gt+1 | St+1 = s 0 , ⇡ )
a r s0
X XX
= ⇡(a | s) p(r , s 0 | s, a)(r + v⇡ (s 0 ))
a r s0
= E [Rt+1 + v⇡ (St+1 ) | St = s, At ⇠ ⇡(s)]

Valores de acción
I Es posible condicionar el valor en las acciones:
q⇡ (s, a) = E [Gt | St = s, At = a]
⇥ ⇤
= E Rt+1 + Rt+2 + 2 Rt+3 + . . . | St = s, At = a
I Hablaremos en profundidad sobre estados y valores de acción más adelante

Función de Valor Óptima
Definición
La función de valor óptima v ⇤ (s) es la máxima función de valor entre todas las polı́ticas
v ⇤ (s) = max v⇡ (s)

⇡
La función de valor de acción óptima q ⇤ (s, a) es la máxima función de acción-valor

sobre todas las polı́ticas
q ⇤ (s, a) = max q⇡ (s, a)
⇡
I La función de valor óptima especifica la mejor performance posible en el MDP

Encontrando la Polı́tica Óptima
Una polı́tica óptima puede encontrarse maximizando sobre q ⇤ (s, a),
⇡ ⇤ (s) = argmax q ⇤ (s, a)

a2A
I Siempre hay una polı́tica óptima determinı́stica para cualquier MDP

I Si conocemos q ⇤ (s, a), inmediatamente tenemos la polı́tica óptima
I Pueden haber múltiples polı́ticas óptimas
I Si múltiples acciones maximizan q(s, ·), podemos elegir cualquiera de ellas
(incluso estocásticamente)
Aproximaciones a la función de valor
I El agente muchas veces aproxima la función de valor

I Discutiremos algoritmos para aprender estas funciones eficientemente
I Con una función de valor precisa, podemos actuar de forma óptima
I Con aproximaciones adecuadas, podemos actuar bien, incluso en espacios de
estado muy grandes

I Estado del agente
I Polı́tica
I Modelo
Modelo
I Un modelo predice que va a hacer el ambiente a continuación

I Por ej., P predice el siguiente estado
P(s, a, s 0 ) ⇡ p(St+1 = s 0 | St = s, At = a)
I Por ej., R predice la siguiente recompensa (inmediata)
R(s, a) ⇡ E [Rt+1 | St = s, At = a]
I Un modelo no nos da inmediatamente una buena polı́tica, todavı́a debemos

planificar
I Se pueden considerar también modelos estocásticos (generativos)
Ejemplo: Laberinto
Maze Example
Start
I Recompensas: -1 por instante de
I Rewards: -1 per time-step
I
tiempo
Actions: N, E, S, W
I
I States:Acciones: N, E, S, O
Agent’s location
I Estados: ubicación del agente
Goal
Ejemplo: Laberinto: Polı́tica
Start
Goal
I Las flechas representan la polı́tica ⇡(s) para cada estado s

Ejemplo: Laberinto: Función de valor
-14 -13 -12 -11 -10 -9
Start -16 -15 -12 -8
-16 -17 -6 -7
-18 -19 -5
-24 -20 -4 -3
-23 -22 -21 -22 -2 -1 Goal
I Los números representan el valor v⇡ (s) para cada estado s

Ejemplo: Laberinto: Modelo
-1 -1 -1 -1 -1 -1
Start -1 -1 -1 -1
-1 -1 -1
-1
-1 -1
-1 -1 Goal
I La grilla representa el modelo de transiciones parciales a

Pss
a 0
Categorización de agentes
I Basados en Valor
I Sin polı́tica (implı́cita)
I Función de Valor
I Basados en Polı́tica
I Polı́tica
I Sin función de Valor
I Actor-Crı́tico
I Polı́tica
Categorización de agentes
I Sin Modelo
I Polı́tica y/o función de valor
I Sin modelo
I Basado en Modelo
I Opcionalmente polı́tica y/o función de valor
I Modelo
I Actor-Crı́tico
I Polı́tica
Taxonomı́a de agentes
Agent Taxonomy
Model-Free
Value Function Actor Policy

Critic
Value-Based Policy-Based
Model-Based
Model
David Silver
Desafı́os en Aprendizaje por Refuerzo
Aprendizaje y Planeamiento
Dos problemas fundamentales en Aprendizaje por Refuerzo:

I Aprendizaje:
I El ambiente es inicialmente desconocido
I El agente interactúa con el ambiente
I Planeamiento:
I Un modelo del ambiente es dado
I El agente planea sobre este modelo (sin interacción externa)
Control y Predicción
I Predicción: evaluar el futuro (para una polı́tica dada)

I Control: optimizar el futuro (encontrar la mejor polı́tica)
I Están fuertemente ligadas:
⇡⇤ (s) = argmax v⇡ (s)

⇡
Aprendiendo los componentes de un agente
I Todos los componentes son funciones

I Polı́ticas mapean estados a acciones
I Funciónes de valor mapean estados a valores
I Modelos mapean estados a estados y/o a recompensas
I Actualización de estados mapea estados y observaciones a nuevos estados
I Podrı́amos representar todas estas funciones con redes neuronales y luego utilizar
métodos de Aprendizaje Profundo para optimizarlas
I El Aprendizaje por Refuerzo Profundo es una área rica y activa de investigación
I Las redes neuronales (actuales) no son siempre la mejor herramienta (pero
muchas veces funcionan bien)
Ejemplo: Atari por RL
Atari Example: Reinforcement Learning
observation action
ot at
I Las reglas del juego son
I desconocidas
Rules of the game are
unknown
I Se aprenden directamente de
reward rt I Learn directly from
interactivelagame-play
interacción durante el juego
I I Elige
Pick actions acciones
on joystick,del joystick, ve
see
pixels and scores
pixels y puntajes
Ejemplo: Planeamiento en Atari
Atari Example: Planning
I Las reglas del juego son conocidas

I Se cuenta con un emulador: modelo
I Rules of the game are known
perfecto
I
I Si tomoCan
la query emulator: perfect model
acción a desde el estado s: right left
I If I take action a from state s:

I ¿CuálI será el próximo estado?
what would the next state be?
I ¿CuálI será
what el puntaje?
would the score be?
I Planear hacia
I Plan adelante
ahead para encontrar
to find optimal policy la
polı́tica óptima
I Later versions add noise, to break algorithms right left right left
I thatposteriores
Versiones rely on determinism
agregan ruido para
romper algoritmos que se apoyan en el
determinismo
Exploración y Explotación
I Aprendemos por ensayo y error

I El agente debe descubrir una buena polı́tica
I ... a partir de nuevas experiencias
I ... sin sacrificar mucha recompensa en el camino
Exploración y Explotación
I Exploración encuentra más información

I Explotación explota la informacion conocida para maximizar la recompensa
I Es importante explorar tanto como explotar
I Este es un problema fundamental que no ocurre en aprendizaje supervisado
Ejemplos
I Elección de restaurant
Explotación Ir a tu restaurant favorito
Exploración Probar un restaurant nuevo
I Perforaciones petroleras
Explotación Perforar la mejor ubicación conocida
Exploración Perforar una ubicación nueva
I Juegos
Explotación Jugar la movida que en el momento parece la mejor
Exploración Probar una nueva estrategia
Gridworld Example: Prediction
Ejemplo: Gridworld: Predicción
A B 3.3 8.8 4.4 5.3 1.5

+5 1.5 3.0 2.3 1.9 0.5
+10 B’ 0.1 0.7 0.7 0.4 -0.4
-1.0 -0.4 -0.4 -0.6 -1.2

Actions
A’ -1.9 -1.3 -1.2 -1.4 -2.0
(a) (b)
Reward is 1 when bumping into a wall, = 0.9
La recompensa es 1 cuando se choca contra un borde
What is the value function for the uniform random policy?
¿Cuál es la función de valor para la polı́tica aleatoria uniforme?

GridworldGridworld:
Ejemplo: Example: Control
Control
A B 22.0 24.4 22.0 19.4 17.5
+5 19.8 22.0 19.8 17.8 16.0
+10 B’ 17.8 19.8 17.8 16.0 14.4
16.0 17.8 16.0 14.4 13.0
A’ 14.4 16.0 14.4 13.0 11.7
a) gridworld b) V* c) π *
What es
¿Cuál is the optimaldevalue
la función valorfunction
óptima over
entrealltodas
possible policies?
las polı́ticas?
What es
¿Cuál is the optimalóptima?
la polı́tica policy?
Curso
Los tópicos incluyen:

I Martes:
I Bandits, conceptos exploración y explotación
I Procesos de decisión de Markov, y planeamiento por programación dinámica
I Miercoles:
I Predicción y control sin modelo (p.ej. Q-learning)
I Conceptos básicos de aprendizaje profundo
I Jueves:
I Aprendizaje profundo por refuerzos
I Métodos de gradiente de polı́tica (policy-gradient)
I Viernes:
I Integración de aprendizaje y planeamiento
I Desafı́os en aprendizaje profundo por refuerzo

Clase1 PDF

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Clase1 PDF

Diunggah oleh

Hak Cipta:

Format Tersedia

Aprendizaje Profundo Por Refuerzo

Pablo Sprechmann y José Lezama

I Clases de lunes 25 de febrero al viernes 1ero de marzo de 9:00 a 12:00 AM.

Arthur Samuel (1952):

Arthur Samuel (1952):

Tom Mitchel (Machine Learning):

Hado van Hasselt Lecture 1: Introduction 8 / 58

Aprendizaje por refuerzos

Aprendizaje por refuerzos

Aprendizaje por refuerzos

Aprendizaje por refuerzos

Regresión: La salida deseada es un número real y 2 R o un vector de números reales y 2 Rm .

Regresión: La salida deseada es un número real y 2 R o un vector de números reales y 2 Rm .

I Predecir la temperatura al medio dı́a del jueves

Regresión: La salida deseada es un número real y 2 R o un vector de números reales y 2 Rm .

I Predecir la temperatura al medio dı́a del jueves

Clasificación: La salida deseada es una variable categorica, y 2 {1, . . . , k}.

Regresión: La salida deseada es un número real y 2 R o un vector de números reales y 2 Rm .

I Predecir la temperatura al medio dı́a del jueves

Clasificación: La salida deseada es una variable categorica, y 2 {1, . . . , k}.

Regresión: La salida deseada es un número real y 2 R o un vector de números reales y 2 Rm .

I Predecir la temperatura al medio dı́a del jueves

Clasificación: La salida deseada es una variable categorica, y 2 {1, . . . , k}.

Predicción estructurada: La salida deseada es un objeto con estructora, e.g. grafo

Regresión: La salida deseada es un número real y 2 R o un vector de números reales y 2 Rm .

I Predecir la temperatura al medio dı́a del jueves

Clasificación: La salida deseada es una variable categorica, y 2 {1, . . . , k}.

Predicción estructurada: La salida deseada es un objeto con estructora, e.g. grafo

Observamos un conjunto de pares {(x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )} donde x 2 Rd

Observamos un conjunto de pares {(x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )} donde x 2 Rd

Observamos un conjunto de pares {(x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )} donde x 2 Rd

I Datos de entrenamiento: {(xi , yi )}i .

I ImageNet 2012: Krizhevsky, Sutskever, Hinton ganaron la competicion por

Large-Scale Deep Learning With TensorFlow, Je↵ Dean 2016

I DQN de Mnih et al 2014 fue el momento

I Desde entonces se han logrado grandes avances

1. ¿Qué es Aprendizaje por Refuerzo (RL)?

I Los humanos, como otros animales inteligentes, aprendemos interactuando con

I Los humanos, como otros animales inteligentes, aprendemos interactuando con

I Los humanos, como otros animales inteligentes, aprendemos interactuando con

I Los humanos, como otros animales inteligentes, aprendemos interactuando con

Hado van Hasselt

I Hay (al menos) dos razones para este tipo de aprendizaje

I Hay (al menos) dos razones para este tipo de aprendizaje

I Hay (al menos) dos razones para este tipo de aprendizaje

I Hay (al menos) dos razones para este tipo de aprendizaje

1. Es la ciencia de aprender a tomar decisiones para alcanzar un objetivo a partir de

1. Es la ciencia de aprender a tomar decisiones para alcanzar un objetivo a partir de

1. Es la ciencia de aprender a tomar decisiones para alcanzar un objetivo a partir de

3. La aplicabilidad potencial es enorme

Hado van Hasselt Lecture 1: Introduction 7 / 58

Hado van Hasselt Lecture 1: Introduction 8 / 58

¿En qué se diferencia el Aprendizaje por Refuerzo de otros paradigmas de machine

¿En qué se diferencia el Aprendizaje por Refuerzo de otros paradigmas de machine

¿En qué se diferencia el Aprendizaje por Refuerzo de otros paradigmas de machine

¿En qué se diferencia el Aprendizaje por Refuerzo de otros paradigmas de machine

¿En qué se diferencia el Aprendizaje por Refuerzo de otros paradigmas de machine

¿En qué se diferencia el Aprendizaje por Refuerzo de otros paradigmas de machine

¿En qué se diferencia el Aprendizaje por Refuerzo de otros paradigmas de machine

¿En qué se diferencia el Aprendizaje por Refuerzo de otros paradigmas de machine

I Todos estos son problemas de aprendizaje por refuerzo

Silver et al, 2014 (DPG)

1. Aprendizaje vs. diseño a mano