Clase 1
Feb 2019
Administrativo
Supervised Unsupervised
Learning Learning
Machine
Learning
Reinforcement
Learning
David Silver
Formas de aprendizaje de máquinas
Aprendizaje supervisado
Aprendizaje no supervisado
Aprendizaje supervisado
I Predecir una salida dada una entrada.
Aprendizaje no supervisado
Aprendizaje supervisado
I Predecir una salida dada una entrada.
Aprendizaje no supervisado
I Encontrar una buena representación (o modelo) de los datos.
Aprendizaje supervisado
I Predecir una salida dada una entrada.
Aprendizaje no supervisado
I Encontrar una buena representación (o modelo) de los datos.
Proceso de aprendizaje:
I Clase de modelos F, de forma que f (x) ⇡ y
I Una medida discrepancia, L(f (x), y ), entre predicciones f (x) y objetivos o targets y .
I Método para elegir f 2 F de forma de minimizar:
n
X
L(f (xi ), yi )
i=1
Aprendizaje supervisado
Proceso de aprendizaje:
I Clase de modelos F, de forma que f (x) ⇡ y
I Una medida discrepancia, L(f (x), y ), entre predicciones f (x) y objetivos o targets y .
I Método para elegir f 2 F de forma de minimizar:
n
X
L(f (xi ), yi )
i=1
Generalización:
I Dado x utilizar los datos de entrenamiento {(xi , yi )}i para predecir f (x).
Regresion lineal
2. Require pensar en
I ... predecir (a largo plazo) las consecuencias de las acciones
I ... obtener experiencia
I ... manejar la incertidumbre
¿Qué es Aprendizaje por Refuerzo?
2. Require pensar en
I ... predecir (a largo plazo) las consecuencias de las acciones
I ... obtener experiencia
I ... manejar la incertidumbre
Engineering Neuroscience
Machine
Learning
Optimal Reward
Control System
Reinforcement
Learning
Operations Classical/Operant
Research Conditioning
Bounded
Mathematics Psychology
Rationality
Economics
David Silver
Ramas del Machine Learning
Branches of Machine Learning
Supervised Unsupervised
Learning Learning
Machine
Learning
Reinforcement
Learning
David Silver
Caracterı́sticas del Aprendizaje por Refuerzo
I Ejemplos:
I Volar un helicóptero
I Manejar un portafolio de inversión
I Hacer que un robot camine
I Jugar videojuegos o juegos de mesa
Kohl and Stone, 2004 Ng et al, 2004 Tedrake et al, 2005 Kober and Peters, 2009
Pieter Abbeel
Enfoques a la inteligencia artificial
Aprendizaje por refuerzos profundo, elige la opción de la izquierda en todo estos puntos
Agente
At Ot+1 Rt+1
Environment
Agente
At Ot+1 Rt+1
Ambiente
St ! St+1
Definición
Un proceso de control estocástico en tiempo discreto tiene la propiedad de Markov
cuando 8s 2 S, 8s 0 2 S, 8r 2 R, 8a 2 A y 8s 0:t 1 y 8a 0:t 1 ,
p(St+1 = s 0 | St = s, At = a) = p(St+1 = s 0 | Ht , St = s, At = a)
p(Ot+1 = o | St = s, At = a) = p(Ot+1 = o | Ht , St = s, At = a)
p(Rt+1 = r | St = s, At = a) = p(Rt+1 = r | Ht , St = s, At = a)
Propiedad de Markov
Consideremos una sequencia de acciones y estados aleatorios,
Ht = S 0 , A 0 , S 1 , A 1 , . . . , St 1 , A t 1
Definición
Un proceso de control estocástico en tiempo discreto tiene la propiedad de Markov
cuando 8s 2 S, 8s 0 2 S, 8r 2 R, 8a 2 A y 8s 0:t 1 y 8a 0:t 1 ,
p(St+1 = s 0 | St = s, At = a) = p(St+1 = s 0 | Ht , St = s, At = a)
p(Ot+1 = o | St = s, At = a) = p(Ot+1 = o | Ht , St = s, At = a)
p(Rt+1 = r | St = s, At = a) = p(Rt+1 = r | Ht , St = s, At = a)
H t = O0 , A 0 , R 1 , O1 , . . . , Ot 1 , A t 1 , R t , Ot
Componentes del agente
Agent
a
St+1 Sta
At Ot+1 Rt+1
Ambiente
St ! St+1
Estado del agente
At Ot+1 Rt+1
Ambiente
St ! St+1
Estado del agente
Ambiente
St ! St+1
Estado del agente
¿Cómo se podrı́a construir un estado del agente Markov en este laberinto (para
cualquier señal de recompensa)?
Ambientes Parcialmente Observables
Agente
At St+1 Rt+1
Ambiente
St ! St+1
Transición Transición
p(S1 |s0 , a0 ) p(S2 |s1 , a1 )
s0 s1 s2
...
Recompensa Recompensa
agente agente
p(R0 |s0 , a0 , s1 ) p(R1 |s1 , a1 , s2 )
a0 r0 a1 r1
I A cada paso, el agente toma una acción que cambia el estado del ambiente y
produce una recompensa.
Paréntesis: formulación alternativa
Controlador
Ut Xt+1 Gt
Sistema
Xt ! Xt+1
I RL: estudia cómo usar datos del pasado para mejorar la manipulación futura de un
sistema dinámico. [Recht 2018]
Paréntesis: formulación alternativa
Controlador
Ut Xt+1 Gt
Sistema
Xt ! Xt+1
I RL: estudia cómo usar datos del pasado para mejorar la manipulación futura de un
sistema dinámico. [Recht 2018]
I Este es precisamente el objetivo de teorı́a de control
Paréntesis: formulación alternativa
Controlador
Ut Xt+1 Gt
Sistema
Xt ! Xt+1
I RL: estudia cómo usar datos del pasado para mejorar la manipulación futura de un
sistema dinámico. [Recht 2018]
I Este es precisamente el objetivo de teorı́a de control
I Control asume un modelo: Xt+1 = f (Xt , Ut , !), Gt = g (Xt , Ut , !)
Paréntesis: formulación alternativa
Controlador
Ut Xt+1 Gt
Sistema
Xt ! Xt+1
I RL: estudia cómo usar datos del pasado para mejorar la manipulación futura de un
sistema dinámico. [Recht 2018]
I Este es precisamente el objetivo de teorı́a de control
I Control asume un modelo: Xt+1 = f (Xt , Ut , !), Gt = g (Xt , Ut , !)
I RL intenta resolver el mismo problema que programación dinámica aproximada
Paréntesis: formulación alternativa
Controlador
Ut Xt+1 Gt
Sistema
Xt ! Xt+1
I RL: estudia cómo usar datos del pasado para mejorar la manipulación futura de un
sistema dinámico. [Recht 2018]
I Este es precisamente el objetivo de teorı́a de control
I Control asume un modelo: Xt+1 = f (Xt , Ut , !), Gt = g (Xt , Ut , !)
I RL intenta resolver el mismo problema que programación dinámica aproximada
I RL asume mı́nimo conocimiento del problema, y el agente sólo puede obtener
información interactuando con el ambiente (prueba y error)
Ejemplo: robot de limpieza
I Estacionariedad:
I Polı́tica no-estacionaria: depende del tiempo ⇡t (A | S)
I Polı́tica estacionaria: independiente del tiempo: ⇡t = ⇡ para todo t
Objetivo del agente
I Tareas episódicas:
I Horizonte finito tiene sentido cuando la experiencia se puede sub-dividir en episodios
I El episodio termina cuando se alcanza un estado terminal, luego el agente vuelve a
un estado inicial (potencialmente aleatorio)
I Polı́ticas no-estacionarias pueden jugar un rol importante (Bertsekas et al., 1995)
I Tareas continuadas:
I La experiencia es continua, no se puede dividir naturalmente
I Las polı́ticas estacionarias aparecen de forma natural
I Puede considerar el caso episodio incluyendo estados absorventes
Retorno en tareas continuadas
I El retorno puede ser infinito: cómo comparar dos poliı́ticas con retorno infinito?
Retorno en tareas continuadas
I El retorno puede ser infinito: cómo comparar dos poliı́ticas con retorno infinito?
I Una posibilidad (que se utiliza también en la práctica) es la cantidad:
H 1
1 X
Gt = lim Rt+k+1
H!1 H
k=0
Retorno en tareas continuadas
I El retorno puede ser infinito: cómo comparar dos poliı́ticas con retorno infinito?
I Una posibilidad (que se utiliza también en la práctica) es la cantidad:
H 1
1 X
Gt = lim Rt+k+1
H!1 H
k=0
I Retornos Gt : recompensa descontada total, con 2 [0, 1], a partir del instante de
tiempo t:
1
X
k
Gt = Rt+1 + Rt+2 + . . . = Rt+k+1
k=0
I Para una polı́tica estacionaria: Gt = Rt+1 + Gt+1
I Ésta es una variable aleatoria que depende del MDP y de la polı́tica
Retorno descontado
I Retornos Gt : recompensa descontada total, con 2 [0, 1], a partir del instante de
tiempo t:
1
X
k
Gt = Rt+1 + Rt+2 + . . . = Rt+k+1
k=0
I Para una polı́tica estacionaria: Gt = Rt+1 + Gt+1
I Ésta es una variable aleatoria que depende del MDP y de la polı́tica
I El descuento 2 [0, 1] define el valor presente de las recompensas futuras
I k
El valor marginal de recibir una recompensa R tras k + 1 instantes de tiempo es R
I Para < 1, recompensas inmediatas son más importantes que las futuras
I cerca de 0 da lugar a una evaluación ”miope”
I cerca de 1 da lugar a una evaluación ”mirando a lo lejos”
Retorno descontado
I Retornos Gt : recompensa descontada total, con 2 [0, 1], a partir del instante de
tiempo t:
1
X
k
Gt = Rt+1 + Rt+2 + . . . = Rt+k+1
k=0
I Para una polı́tica estacionaria: Gt = Rt+1 + Gt+1
I Ésta es una variable aleatoria que depende del MDP y de la polı́tica
I El descuento 2 [0, 1] define el valor presente de las recompensas futuras
I k
El valor marginal de recibir una recompensa R tras k + 1 instantes de tiempo es R
I Para < 1, recompensas inmediatas son más importantes que las futuras
I cerca de 0 da lugar a una evaluación ”miope”
I cerca de 1 da lugar a una evaluación ”mirando a lo lejos”
I El MDP está determinado por la tupla (S, A, R, p, )
Retorno descontado
I Retornos Gt : recompensa descontada total, con 2 [0, 1], a partir del instante de
tiempo t:
1
X
k
Gt = Rt+1 + Rt+2 + . . . = Rt+k+1
k=0
I Para una polı́tica estacionaria: Gt = Rt+1 + Gt+1
I Ésta es una variable aleatoria que depende del MDP y de la polı́tica
I El descuento 2 [0, 1] define el valor presente de las recompensas futuras
I k
El valor marginal de recibir una recompensa R tras k + 1 instantes de tiempo es R
I Para < 1, recompensas inmediatas son más importantes que las futuras
I cerca de 0 da lugar a una evaluación ”miope”
I cerca de 1 da lugar a una evaluación ”mirando a lo lejos”
I El MDP está determinado por la tupla (S, A, R, p, )
I Siempre hay una polı́tica óptima que es estacionaria
¿Por qué descontar?
q⇡ (s, a) = E [Gt | St = s, At = a]
⇥ ⇤
= E Rt+1 + Rt+2 + 2 Rt+3 + . . . | St = s, At = a
Definición
La función de valor óptima v ⇤ (s) es la máxima función de valor entre todas las polı́ticas
P(s, a, s 0 ) ⇡ p(St+1 = s 0 | St = s, At = a)
R(s, a) ⇡ E [Rt+1 | St = s, At = a]
Start
I Recompensas: -1 por instante de
I Rewards: -1 per time-step
I
tiempo
Actions: N, E, S, W
I
I States:Acciones: N, E, S, O
Agent’s location
I Estados: ubicación del agente
Goal
Ejemplo: Laberinto: Polı́tica
Start
Goal
-16 -17 -6 -7
-18 -19 -5
-24 -20 -4 -3
Start -1 -1 -1 -1
-1 -1 -1
-1
-1 -1
-1 -1 Goal
I Basados en Valor
I Sin polı́tica (implı́cita)
I Función de Valor
I Basados en Polı́tica
I Polı́tica
I Sin función de Valor
I Actor-Crı́tico
I Polı́tica
I Función de Valor
Categorización de agentes
I Sin Modelo
I Polı́tica y/o función de valor
I Sin modelo
I Basado en Modelo
I Opcionalmente polı́tica y/o función de valor
I Modelo
I Actor-Crı́tico
I Polı́tica
I Función de Valor
Taxonomı́a de agentes
Agent Taxonomy
Model-Free
Value-Based Policy-Based
Model-Based
Model
David Silver
Desafı́os en Aprendizaje por Refuerzo
Aprendizaje y Planeamiento
observation action
ot at
I Las reglas del juego son
I desconocidas
Rules of the game are
unknown
I Se aprenden directamente de
reward rt I Learn directly from
interactivelagame-play
interacción durante el juego
I I Elige
Pick actions acciones
on joystick,del joystick, ve
see
pixels and scores
pixels y puntajes
Ejemplo: Planeamiento en Atari
Atari Example: Planning
I thatposteriores
Versiones rely on determinism
agregan ruido para
romper algoritmos que se apoyan en el
determinismo
Exploración y Explotación
I Elección de restaurant
Explotación Ir a tu restaurant favorito
Exploración Probar un restaurant nuevo
I Perforaciones petroleras
Explotación Perforar la mejor ubicación conocida
Exploración Perforar una ubicación nueva
I Juegos
Explotación Jugar la movida que en el momento parece la mejor
Exploración Probar una nueva estrategia
Gridworld Example: Prediction
Ejemplo: Gridworld: Predicción
(a) (b)
Reward is 1 when bumping into a wall, = 0.9
La recompensa es 1 cuando se choca contra un borde
What is the value function for the uniform random policy?
a) gridworld b) V* c) π *
What es
¿Cuál is the optimaldevalue
la función valorfunction
óptima over
entrealltodas
possible policies?
las polı́ticas?
What es
¿Cuál is the optimalóptima?
la polı́tica policy?
Curso