Anda di halaman 1dari 152

Aprendizaje Profundo Por Refuerzo

Clase 1

Pablo Sprechmann y José Lezama

Feb 2019
Administrativo

I Clases de lunes 25 de febrero al viernes 1ero de marzo de 9:00 a 12:00 AM.


I Salón B12 (Aulario)
I Referencias bibliográficas:
I An Introduction to Reinforcement Learning, Sutton & Barto.
I http://incompleteideas.net/book/the-book-2nd.html
I Curso “Reinforcement learning” por Hado van Hasselt
I Disponibles en el canal de YouTube de DeepMind.
I Validación: trabajos prácticos (entregables):
I Formato Python notebooks.
I La letra se publicará al final de la semana en el EVA.
I Fecha lı́mite de entrega: domingo 5 de mayo.
I Las entregas se realizan a través del EVA.
I Consultas a través del EVA o presenciales a partir de abril (c/José Lezama)
Que es el aprendizaje de máquinas?

Arthur Samuel (1952):


“The studies reported here have been concerned with programming of a digital
computer to behave in a way which, if done by human beings or animals, would be
described as involving the process of learning.”
Que es el aprendizaje de máquinas?

Arthur Samuel (1952):


“The studies reported here have been concerned with programming of a digital
computer to behave in a way which, if done by human beings or animals, would be
described as involving the process of learning.”

Tom Mitchel (Machine Learning):


“El campo del aprendizaje de máquinas se ocupa de construir programas capacez de
mejorar su performance automaticamente a partir de experiencia.”
Ramas del Machine Learning
Branches of Machine Learning

Supervised Unsupervised
Learning Learning

Machine
Learning

Reinforcement
Learning

Hado van Hasselt Lecture 1: Introduction 8 / 58

David Silver
Formas de aprendizaje de máquinas

Aprendizaje supervisado

Aprendizaje no supervisado

Aprendizaje por refuerzos


Formas de aprendizaje de máquinas

Aprendizaje supervisado
I Predecir una salida dada una entrada.

Aprendizaje no supervisado

Aprendizaje por refuerzos


Formas de aprendizaje de máquinas

Aprendizaje supervisado
I Predecir una salida dada una entrada.

Aprendizaje no supervisado
I Encontrar una buena representación (o modelo) de los datos.

Aprendizaje por refuerzos


Formas de aprendizaje de máquinas

Aprendizaje supervisado
I Predecir una salida dada una entrada.

Aprendizaje no supervisado
I Encontrar una buena representación (o modelo) de los datos.

Aprendizaje por refuerzos


I Aprender a elegir las acciones con el fin de alcanzar un objetivo descrito como
maximizar alguna noción de recompensa acumulada.
Formas de aprendizaje supervisado
Observamos un conjunto de pares {(x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )} donde x 2 Rd
Formas de aprendizaje supervisado
Observamos un conjunto de pares {(x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )} donde x 2 Rd

Regresión: La salida deseada es un número real y 2 R o un vector de números reales y 2 Rm .


Formas de aprendizaje supervisado
Observamos un conjunto de pares {(x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )} donde x 2 Rd

Regresión: La salida deseada es un número real y 2 R o un vector de números reales y 2 Rm .

I Predecir la temperatura al medio dı́a del jueves


I Predecir el valor de una acción en tres meses
Formas de aprendizaje supervisado
Observamos un conjunto de pares {(x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )} donde x 2 Rd

Regresión: La salida deseada es un número real y 2 R o un vector de números reales y 2 Rm .

I Predecir la temperatura al medio dı́a del jueves


I Predecir el valor de una acción en tres meses

Clasificación: La salida deseada es una variable categorica, y 2 {1, . . . , k}.


Formas de aprendizaje supervisado
Observamos un conjunto de pares {(x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )} donde x 2 Rd

Regresión: La salida deseada es un número real y 2 R o un vector de números reales y 2 Rm .

I Predecir la temperatura al medio dı́a del jueves


I Predecir el valor de una acción en tres meses

Clasificación: La salida deseada es una variable categorica, y 2 {1, . . . , k}.


I El caso más sencillo es clasificación binaria, k = 2.
I Ejemplos: clasificación de imágenes, reconocimiento de voz.
Formas de aprendizaje supervisado
Observamos un conjunto de pares {(x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )} donde x 2 Rd

Regresión: La salida deseada es un número real y 2 R o un vector de números reales y 2 Rm .

I Predecir la temperatura al medio dı́a del jueves


I Predecir el valor de una acción en tres meses

Clasificación: La salida deseada es una variable categorica, y 2 {1, . . . , k}.


I El caso más sencillo es clasificación binaria, k = 2.
I Ejemplos: clasificación de imágenes, reconocimiento de voz.

Predicción estructurada: La salida deseada es un objeto con estructora, e.g. grafo


Formas de aprendizaje supervisado
Observamos un conjunto de pares {(x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )} donde x 2 Rd

Regresión: La salida deseada es un número real y 2 R o un vector de números reales y 2 Rm .

I Predecir la temperatura al medio dı́a del jueves


I Predecir el valor de una acción en tres meses

Clasificación: La salida deseada es una variable categorica, y 2 {1, . . . , k}.


I El caso más sencillo es clasificación binaria, k = 2.
I Ejemplos: clasificación de imágenes, reconocimiento de voz.

Predicción estructurada: La salida deseada es un objeto con estructora, e.g. grafo


I Estimacion de posiciones humanas en imagenes
Aprendizaje supervisado

Observamos un conjunto de pares {(x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )} donde x 2 Rd


Aprendizaje supervisado

Observamos un conjunto de pares {(x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )} donde x 2 Rd

Proceso de aprendizaje:
I Clase de modelos F, de forma que f (x) ⇡ y
I Una medida discrepancia, L(f (x), y ), entre predicciones f (x) y objetivos o targets y .
I Método para elegir f 2 F de forma de minimizar:
n
X
L(f (xi ), yi )
i=1
Aprendizaje supervisado

Observamos un conjunto de pares {(x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )} donde x 2 Rd

Proceso de aprendizaje:
I Clase de modelos F, de forma que f (x) ⇡ y
I Una medida discrepancia, L(f (x), y ), entre predicciones f (x) y objetivos o targets y .
I Método para elegir f 2 F de forma de minimizar:
n
X
L(f (xi ), yi )
i=1

Generalización:
I Dado x utilizar los datos de entrenamiento {(xi , yi )}i para predecir f (x).
Regresion lineal

I Datos de entrenamiento: {(xi , yi )}i .


I Familia de modelos: funciones lineales. Parámetros: a y b
I Predicción: f (x) = ax + b
I Función objetivo: L(f (x), y ) = 12 (ax + b y )2
I Elegimos a y b que minimicen la discrepancia en el conjunto de entrenamiento
Curse of dimensionality
I Datos x 2 Rn , altı́sima dimensión e.g. n = 106
Curse of dimensionality
I Datos x 2 Rn , altı́sima dimensión e.g. n = 106
I En altas dimensiones: los puntos estan aislados unos de otros
Curse of dimensionality
I Datos x 2 Rn , altı́sima dimensión e.g. n = 106
I En altas dimensiones: los puntos estan aislados unos de otros
I Solucion: utilizar representaciones x
I Invarianza: |f (x) 0
f (x )| debe variar poco relativo a || (x) (x 0 )||2
Aprendizaje profundo
Una clase de representaciones paramétricas no lineales capaces de codificar el
caracterı́stias (o conocimiento) de problema y de ser optimizadas de forma eficiente (a
enorme escala) usand metodos de descenso de gradiente estocástico.
Aprendizaje profundo
Una clase de representaciones paramétricas no lineales capaces de codificar el
caracterı́stias (o conocimiento) de problema y de ser optimizadas de forma eficiente (a
enorme escala) usand metodos de descenso de gradiente estocástico.
Aprendizaje profundo
Una clase de representaciones paramétricas no lineales capaces de codificar el
caracterı́stias (o conocimiento) de problema y de ser optimizadas de forma eficiente (a
enorme escala) usand metodos de descenso de gradiente estocástico.
Aprendizaje profundo
Una clase de representaciones paramétricas no lineales capaces de codificar el
caracterı́stias (o conocimiento) de problema y de ser optimizadas de forma eficiente (a
enorme escala) usand metodos de descenso de gradiente estocástico.
Aprendizaje profundo
Aprendizaje profundo

I ImageNet 2012: Krizhevsky, Sutskever, Hinton ganaron la competicion por


enorme margen
I Gran impacto en los últimos 10 años gracias al aumento de cantidad de datos y
capacidad de cómputo
I Estado del arte en diversas disciplinas
I Procesamiento de audio: reconocimiento de voz, TTS, etc
I Visión por computadoras: clasificación de imágenes, video, segmentación
I Traducción, modelos de lenguaje, etc
I Impacto en gran cantidad de aplicaciones prácticas: medicina, self-driving cars,
etc etc
Aprendizaje profundo

Large-Scale Deep Learning With TensorFlow, Je↵ Dean 2016


Aprendizaje profundo por refuerzos

I DQN de Mnih et al 2014 fue el momento


“Imagenet”

I Desde entonces se han logrado grandes avances


I Alpha Go series
I Roboótica
I StarCraft
Agenda

1. ¿Qué es Aprendizaje por Refuerzo (RL)?


2. Conceptos básicos
3. Desafı́os en Aprendizaje por Refuerzo
¿Qué es Aprendizaje por Refuerzo?
¿Qué es Aprendizaje por Refuerzo?

I Los humanos, como otros animales inteligentes, aprendemos interactuando con


nuestro ambiente
¿Qué es Aprendizaje por Refuerzo?

I Los humanos, como otros animales inteligentes, aprendemos interactuando con


nuestro ambiente
I Esto difiere de otras formas de aprendizaje
I Es activo, en vez de pasivo
I Las interacciones son secuenciales - interacciones futuras dependen de decisiones
anteriores
¿Qué es Aprendizaje por Refuerzo?

I Los humanos, como otros animales inteligentes, aprendemos interactuando con


nuestro ambiente
I Esto difiere de otras formas de aprendizaje
I Es activo, en vez de pasivo
I Las interacciones son secuenciales - interacciones futuras dependen de decisiones
anteriores
I Es un aprendizaje orientado a un objetivo
¿Qué es Aprendizaje por Refuerzo?

I Los humanos, como otros animales inteligentes, aprendemos interactuando con


nuestro ambiente
I Esto difiere de otras formas de aprendizaje
I Es activo, en vez de pasivo
I Las interacciones son secuenciales - interacciones futuras dependen de decisiones
anteriores
I Es un aprendizaje orientado a un objetivo
I Podemos aprender sin ejemplos de comportamiento óptimo
Loop de interacción
The Interaction Loop

Hado van Hasselt


¿Qué es Aprendizaje por Refuerzo?

I Hay (al menos) dos razones para este tipo de aprendizaje


¿Qué es Aprendizaje por Refuerzo?

I Hay (al menos) dos razones para este tipo de aprendizaje


1. Encontrar soluciones desconocidas a priori
e.g. “escribir” un programa capaz de jugar al Go mejor que cualquier humano
2. Encontrar soluciones de forma continuada para circunstancias no previstas
previamente
¿Qué es Aprendizaje por Refuerzo?

I Hay (al menos) dos razones para este tipo de aprendizaje


1. Encontrar soluciones desconocidas a priori
e.g. “escribir” un programa capaz de jugar al Go mejor que cualquier humano
2. Encontrar soluciones de forma continuada para circunstancias no previstas
previamente
I Aprendizaje por Refuerzo busca encontrar soluciones para ambos casos
¿Qué es Aprendizaje por Refuerzo?

I Hay (al menos) dos razones para este tipo de aprendizaje


1. Encontrar soluciones desconocidas a priori
e.g. “escribir” un programa capaz de jugar al Go mejor que cualquier humano
2. Encontrar soluciones de forma continuada para circunstancias no previstas
previamente
I Aprendizaje por Refuerzo busca encontrar soluciones para ambos casos
I Notar que el segundo punto no es unicamente generalización, es aprender de
forma eficiente durante la operación
¿Qué es Aprendizaje por Refuerzo?

1. Es la ciencia de aprender a tomar decisiones para alcanzar un objetivo a partir de


interacciones
¿Qué es Aprendizaje por Refuerzo?

1. Es la ciencia de aprender a tomar decisiones para alcanzar un objetivo a partir de


interacciones

2. Require pensar en
I ... predecir (a largo plazo) las consecuencias de las acciones
I ... obtener experiencia
I ... manejar la incertidumbre
¿Qué es Aprendizaje por Refuerzo?

1. Es la ciencia de aprender a tomar decisiones para alcanzar un objetivo a partir de


interacciones

2. Require pensar en
I ... predecir (a largo plazo) las consecuencias de las acciones
I ... obtener experiencia
I ... manejar la incertidumbre

3. La aplicabilidad potencial es enorme


AprendizajeMany
por refuerzo
Faces of Reinforcement Learning
Computer Science

Engineering Neuroscience
Machine
Learning
Optimal Reward
Control System
Reinforcement
Learning
Operations Classical/Operant
Research Conditioning
Bounded
Mathematics Psychology
Rationality

Economics

Hado van Hasselt Lecture 1: Introduction 7 / 58

David Silver
Ramas del Machine Learning
Branches of Machine Learning

Supervised Unsupervised
Learning Learning

Machine
Learning

Reinforcement
Learning

Hado van Hasselt Lecture 1: Introduction 8 / 58

David Silver
Caracterı́sticas del Aprendizaje por Refuerzo

¿En qué se diferencia el Aprendizaje por Refuerzo de otros paradigmas de machine


learning?
Caracterı́sticas del Aprendizaje por Refuerzo

¿En qué se diferencia el Aprendizaje por Refuerzo de otros paradigmas de machine


learning?
I No hay supervisión, solo una señal de recompensa
Caracterı́sticas del Aprendizaje por Refuerzo

¿En qué se diferencia el Aprendizaje por Refuerzo de otros paradigmas de machine


learning?
I No hay supervisión, solo una señal de recompensa
I Descubrir estructura puede ser una parte importante en RL pero por si solo no
alcanza para maximizar las recompensas
Caracterı́sticas del Aprendizaje por Refuerzo

¿En qué se diferencia el Aprendizaje por Refuerzo de otros paradigmas de machine


learning?
I No hay supervisión, solo una señal de recompensa
I Descubrir estructura puede ser una parte importante en RL pero por si solo no
alcanza para maximizar las recompensas
I La realimentación puede ser demorada, no instantánea
Caracterı́sticas del Aprendizaje por Refuerzo

¿En qué se diferencia el Aprendizaje por Refuerzo de otros paradigmas de machine


learning?
I No hay supervisión, solo una señal de recompensa
I Descubrir estructura puede ser una parte importante en RL pero por si solo no
alcanza para maximizar las recompensas
I La realimentación puede ser demorada, no instantánea
I El tiempo realmente importa (sequencial, datos no i.i.d.)
Caracterı́sticas del Aprendizaje por Refuerzo

¿En qué se diferencia el Aprendizaje por Refuerzo de otros paradigmas de machine


learning?
I No hay supervisión, solo una señal de recompensa
I Descubrir estructura puede ser una parte importante en RL pero por si solo no
alcanza para maximizar las recompensas
I La realimentación puede ser demorada, no instantánea
I El tiempo realmente importa (sequencial, datos no i.i.d.)
I Las acciones del agente afectan los subsecuentes datos que recibe
Caracterı́sticas del Aprendizaje por Refuerzo

¿En qué se diferencia el Aprendizaje por Refuerzo de otros paradigmas de machine


learning?
I No hay supervisión, solo una señal de recompensa
I Descubrir estructura puede ser una parte importante en RL pero por si solo no
alcanza para maximizar las recompensas
I La realimentación puede ser demorada, no instantánea
I El tiempo realmente importa (sequencial, datos no i.i.d.)
I Las acciones del agente afectan los subsecuentes datos que recibe
I Explotacion vs. Exploración: es un problema único de RL
Caracterı́sticas del Aprendizaje por Refuerzo

¿En qué se diferencia el Aprendizaje por Refuerzo de otros paradigmas de machine


learning?
I No hay supervisión, solo una señal de recompensa
I Descubrir estructura puede ser una parte importante en RL pero por si solo no
alcanza para maximizar las recompensas
I La realimentación puede ser demorada, no instantánea
I El tiempo realmente importa (sequencial, datos no i.i.d.)
I Las acciones del agente afectan los subsecuentes datos que recibe
I Explotacion vs. Exploración: es un problema único de RL
I RL considera explicitamente todo el problema de una agente interactuando con un
ambiente incierto
Ejemplos de problemas de decisión

I Ejemplos:
I Volar un helicóptero
I Manejar un portafolio de inversión
I Hacer que un robot camine
I Jugar videojuegos o juegos de mesa

I Todos estos son problemas de aprendizaje por refuerzo


(independientmente de qué método se utilice para resolverlos)
Some Reinforcement Learning Success Stories
Ejemplos

Kohl and Stone, 2004 Ng et al, 2004 Tedrake et al, 2005 Kober and Peters, 2009

Silver et al, 2014 (DPG)


Lillicrap et al, 2015 (DDPG) Schulman et al, Levine*, Finn*, et Silver*, Huang*, et
2016 (TRPO + GAE) al, 2016 al, 2016
Mnih et al 2013 (DQN)
(GPS) (AlphaGo)
Mnih et al, 2015 (A3C)

Pieter Abbeel
Enfoques a la inteligencia artificial

1. Aprendizaje vs. diseño a mano

Demis Hassabis, RSA Talk:“Artificial Intelligence and the Future”


Enfoques a la inteligencia artificial

1. Aprendizaje vs. diseño a mano

2. General vs. especı́fico

Demis Hassabis, RSA Talk:“Artificial Intelligence and the Future”


Enfoques a la inteligencia artificial

1. Aprendizaje vs. diseño a mano

2. General vs. especı́fico

3. Conectado a tierra vs. basado en lógica

Demis Hassabis, RSA Talk:“Artificial Intelligence and the Future”


Enfoques a la inteligencia artificial

1. Aprendizaje vs. diseño a mano

2. General vs. especı́fico

3. Conectado a tierra vs. basado en lógica

4. Activo vs. pasivo

Demis Hassabis, RSA Talk:“Artificial Intelligence and the Future”


Enfoques a la inteligencia artificial

1. Aprendizaje vs. diseño a mano

2. General vs. especı́fico

3. Conectado a tierra vs. basado en lógica

4. Activo vs. pasivo

Aprendizaje por refuerzos profundo, elige la opción de la izquierda en todo estos puntos

Demis Hassabis, RSA Talk:“Artificial Intelligence and the Future”


Atari

I Video de DQN jugando al juego de Breakout


Conceptos Básicos
Conceptos básicos

Los conceptos básicos de un sistema de Aprendizaje por Refuerzo son:


I El Ambiente
I Una señal de Recompensa
I Un Agente, que contiene:
I Un estado
I Una polı́tica
I Una función de valor (probablemente)
I Un modelo (opcionalmente)
Agente y Ambiente

I En cada paso t el agente:


I Recibe una observación Ot (y recompensa Rt )
I Ejecuta una acción At
I El ambiente:
I Recibe la acción At
I Emite una observación Ot+1 (y recompensa Rt+1 )
Agente y Ambiente

Agente

At Ot+1 Rt+1

Environment

I En cada paso t el agente:


I Recibe una observación Ot (y recompensa Rt )
I Ejecuta una acción At
I El ambiente:
I Recibe la acción At
I Emite una observación Ot+1 (y recompensa Rt+1 )
Recompensas

I Una recompensa Rt es una señal escalar de realimentación:


I Indica qué tan bien el agente está en el paso t
I Asumamos un escenario episódico: el agente actua durante H pasos.
I El agente busca maximizar la recompensa acumulada,
H
X1
R0 + R1 + . . . + RH 1 = Rt
t=0
Recompensas

I Una recompensa Rt es una señal escalar de realimentación:


I Indica qué tan bien el agente está en el paso t
I Asumamos un escenario episódico: el agente actua durante H pasos.
I El agente busca maximizar la recompensa acumulada,
H
X1
R0 + R1 + . . . + RH 1 = Rt
t=0

El Aprendizaje por Refuerzo está basado en la hipótesis de recompensa


Definición (Hipótesis de Recompensa)
Cualquier objetivo puede ser formalizado como el resultado de maximizar una
recompensa acumulada
Estado del Ambiente

Agente

At Ot+1 Rt+1

Ambiente
St ! St+1

I La observación Ot depende del agente.


I Llamamos estado del ambiente, St , a la representación interna que el sistema
necesita para generar la siguiente observación, estado y recompensa
I Usualmente no es visible para el agente: Ot 6= St
I Incluso si es visible, puede contener mucha información irrelevante
Propiedad de Markov
Consideremos una sequencia de acciones y estados aleatorios,
Ht = S 0 , A 0 , S 1 , A 1 , . . . , St 1 , A t 1

Definición
Un proceso de control estocástico en tiempo discreto tiene la propiedad de Markov
cuando 8s 2 S, 8s 0 2 S, 8r 2 R, 8a 2 A y 8s 0:t 1 y 8a 0:t 1 ,

p(St+1 = s 0 | St = s, At = a) = p(St+1 = s 0 | Ht , St = s, At = a)
p(Ot+1 = o | St = s, At = a) = p(Ot+1 = o | Ht , St = s, At = a)
p(Rt+1 = r | St = s, At = a) = p(Rt+1 = r | Ht , St = s, At = a)
Propiedad de Markov
Consideremos una sequencia de acciones y estados aleatorios,
Ht = S 0 , A 0 , S 1 , A 1 , . . . , St 1 , A t 1

Definición
Un proceso de control estocástico en tiempo discreto tiene la propiedad de Markov
cuando 8s 2 S, 8s 0 2 S, 8r 2 R, 8a 2 A y 8s 0:t 1 y 8a 0:t 1 ,

p(St+1 = s 0 | St = s, At = a) = p(St+1 = s 0 | Ht , St = s, At = a)
p(Ot+1 = o | St = s, At = a) = p(Ot+1 = o | Ht , St = s, At = a)
p(Rt+1 = r | St = s, At = a) = p(Rt+1 = r | Ht , St = s, At = a)

I El estado captura toda la información relevante de la historia


I ”El futuro es independiente del pasado dado el presente”
I El estado es una estadı́stica suficiente del pasado
Ambientes Totalmente Observables

Observabilidad total: Supongamos que el agente


ve el estado del ambiente completo
Agente I observación = estado del ambiente

St = Ot = estado del ambiente


At Ot+1 = St+1 Rt+1
I Entonces el agente está en un proceso de
Ambiente
decisión de Markov (MDP)
St ! St+1
I Todas las siguientes clases asumen este
modelo
Ambientes Parcialmente Observables

I Observabilidad parcial: El agente obtiene información parcial


I Un robot con una cámara no conoce su posición absoluta
I Un agente jugador de póker sólo conoce las cartas a la vista
Ambientes Parcialmente Observables

I Observabilidad parcial: El agente obtiene información parcial


I Un robot con una cámara no conoce su posición absoluta
I Un agente jugador de póker sólo conoce las cartas a la vista
I Ahora la observación no es Markov
Ambientes Parcialmente Observables

I Observabilidad parcial: El agente obtiene información parcial


I Un robot con una cámara no conoce su posición absoluta
I Un agente jugador de póker sólo conoce las cartas a la vista
I Ahora la observación no es Markov
I Formalmente esto es un proceso de decisión de Markov parcialmente observable
(POMDP)
Ambientes Parcialmente Observables

I Observabilidad parcial: El agente obtiene información parcial


I Un robot con una cámara no conoce su posición absoluta
I Un agente jugador de póker sólo conoce las cartas a la vista
I Ahora la observación no es Markov
I Formalmente esto es un proceso de decisión de Markov parcialmente observable
(POMDP)
I El estado del ambiente puede todavı́a ser Markov, pero el agente no lo sabe
Ambientes Parcialmente Observables

I Observabilidad parcial: El agente obtiene información parcial


I Un robot con una cámara no conoce su posición absoluta
I Un agente jugador de póker sólo conoce las cartas a la vista
I Ahora la observación no es Markov
I Formalmente esto es un proceso de decisión de Markov parcialmente observable
(POMDP)
I El estado del ambiente puede todavı́a ser Markov, pero el agente no lo sabe
I El agente debe utilizar la historia para decidir sus acciones

H t = O0 , A 0 , R 1 , O1 , . . . , Ot 1 , A t 1 , R t , Ot
Componentes del agente

Componentes del agente


I Estado del agente
I Polı́tica
I Función de valor
I Modelo
Estado del agente

I Estado del agente: idealmente resume, Ht

Agent
a
St+1 Sta

At Ot+1 Rt+1

Ambiente
St ! St+1
Estado del agente

I Estado del agente: idealmente resume, Ht


I El estado es una forma de memoria
Agent
a
St+1 Sta

At Ot+1 Rt+1

Ambiente
St ! St+1
Estado del agente

I Estado del agente: idealmente resume, Ht


I El estado es una forma de memoria
I El agente debe aprender su propio estado,
Agent
a
St+1 Sta aquello que es relevante para decidir qué
accioón tomar
At Ot+1 Rt+1

Ambiente
St ! St+1
Estado del agente

I Estado del agente: idealmente resume, Ht


I El estado es una forma de memoria
I El agente debe aprender su propio estado,
Agent
a
St+1 Sta aquello que es relevante para decidir qué
accioón tomar
At Ot+1 Rt+1 I Función de actualización del estado
a
Ambiente St+1 = f (Sta , At , Rt+1 , Ot+1 )
St ! St+1
Estado del agente

I Estado del agente: idealmente resume, Ht


I El estado es una forma de memoria
I El agente debe aprender su propio estado,
Agent
a
St+1 Sta aquello que es relevante para decidir qué
accioón tomar
At Ot+1 Rt+1 I Función de actualización del estado
a
Ambiente St+1 = f (Sta , At , Rt+1 , Ot+1 )
St ! St+1

I El estado del agente es tı́picamente mucho


más chico que el del ambiente
Estado del agente

El estado completo del ambiente de un laberinto


Estado del agente

Una observación potencial


Estado del agente

Una observación en otra ubicación


Estado del agente

Las dos observaciones son indistinguibles


Estado del agente
Los dos estados no son Markov

¿Cómo se podrı́a construir un estado del agente Markov en este laberinto (para
cualquier señal de recompensa)?
Ambientes Parcialmente Observables

I Para manejar la observabilidad parcial, el agente puede construir representaciones


de estado internas adecuadas
Ambientes Parcialmente Observables

I Para manejar la observabilidad parcial, el agente puede construir representaciones


de estado internas adecuadas
I Ejemplos de estados del agente:
I La última observación: Sta = Ot (puede no ser suficiente)
I La historia completa: Sta = Ht (puede ser demasiado grande)
I Algún estado actualizado incrementalmente: Sta = f (Sta 1 , Ot )
(Por ejemplo con una red neuronal recurrente.)
I Puede que construir/aprender un estado de agente Markov no sea posible; esto es
común!
I Lo más importante es que el estado contenga información suficiente para buenas
polı́ticas
Formalizando la interfaz RL

Agente

At St+1 Rt+1

Ambiente
St ! St+1

I Discutiremos una formulación matemática de la interacción agente-ambiente


I A ésta se le llama un proceso de decisión de Markov (MDP)
I Proveen un framework matemático muy útil
I Podremos entonces hablar claramente sobre el objetivo y cómo alcanzarlo
Proceso de decisión de Markov (MDP) de horizonte finito

I S = {s1 , . . . , s|S| }, conjunto de todos los posibles estados


I A = {a1 , . . . , a|A| }, conjunto de todas las posibles acciones
I R ⇢ [Rmin , Rmax ], es el conjunto de posibles recompensas
I p(r , s 0 |s, a) es la probabilidad conjunta de una recompensa r y un siguiente estado
s 0 , dado un estado s y una acción a
I H, una cantidad máxima (horizonte) de pasos a tomar; duracion de un episodio.
Proceso de decisión de Markov (MDP) de horizonte finito

I S = {s1 , . . . , s|S| }, conjunto de todos los posibles estados


I A = {a1 , . . . , a|A| }, conjunto de todas las posibles acciones
I R ⇢ [Rmin , Rmax ], es el conjunto de posibles recompensas
I p(r , s 0 |s, a) es la probabilidad conjunta de una recompensa r y un siguiente estado
s 0 , dado un estado s y una acción a
I H, una cantidad máxima (horizonte) de pasos a tomar; duracion de un episodio.

I p define la dinámica del problema


I Las recompensas y el horizonte definen el objetivo
I A veces es útil marginalizar las transiciones de estado o la recompensa esperada:
X X X
p(s 0 | s, a) = p(s 0 , r | s, a) E [R | s, a] = r p(r , s 0 | s, a)
r r s0
Proceso de decisión de Markov (MDP) de horizonte finito

Transición Transición
p(S1 |s0 , a0 ) p(S2 |s1 , a1 )

s0 s1 s2

...
Recompensa Recompensa
agente agente
p(R0 |s0 , a0 , s1 ) p(R1 |s1 , a1 , s2 )

a0 r0 a1 r1

I A cada paso, el agente toma una acción que cambia el estado del ambiente y
produce una recompensa.
Paréntesis: formulación alternativa

Controlador

Ut Xt+1 Gt

Sistema
Xt ! Xt+1

I RL: estudia cómo usar datos del pasado para mejorar la manipulación futura de un
sistema dinámico. [Recht 2018]
Paréntesis: formulación alternativa

Controlador

Ut Xt+1 Gt

Sistema
Xt ! Xt+1

I RL: estudia cómo usar datos del pasado para mejorar la manipulación futura de un
sistema dinámico. [Recht 2018]
I Este es precisamente el objetivo de teorı́a de control
Paréntesis: formulación alternativa

Controlador

Ut Xt+1 Gt

Sistema
Xt ! Xt+1

I RL: estudia cómo usar datos del pasado para mejorar la manipulación futura de un
sistema dinámico. [Recht 2018]
I Este es precisamente el objetivo de teorı́a de control
I Control asume un modelo: Xt+1 = f (Xt , Ut , !), Gt = g (Xt , Ut , !)
Paréntesis: formulación alternativa

Controlador

Ut Xt+1 Gt

Sistema
Xt ! Xt+1

I RL: estudia cómo usar datos del pasado para mejorar la manipulación futura de un
sistema dinámico. [Recht 2018]
I Este es precisamente el objetivo de teorı́a de control
I Control asume un modelo: Xt+1 = f (Xt , Ut , !), Gt = g (Xt , Ut , !)
I RL intenta resolver el mismo problema que programación dinámica aproximada
Paréntesis: formulación alternativa

Controlador

Ut Xt+1 Gt

Sistema
Xt ! Xt+1

I RL: estudia cómo usar datos del pasado para mejorar la manipulación futura de un
sistema dinámico. [Recht 2018]
I Este es precisamente el objetivo de teorı́a de control
I Control asume un modelo: Xt+1 = f (Xt , Ut , !), Gt = g (Xt , Ut , !)
I RL intenta resolver el mismo problema que programación dinámica aproximada
I RL asume mı́nimo conocimiento del problema, y el agente sólo puede obtener
información interactuando con el ambiente (prueba y error)
Ejemplo: robot de limpieza

I Consideremos un robot que limpia latas


I Dos estados: high (alta carga de baterı́a) o low (baja carga de baterı́a)
I Acciones: {wait, search} en high, {wait, search, recharge} en low
I La dinámica puede ser estocástica:
I p(St+1 = high | St = high, At = search) = ↵
I p(St+1 = low | St = high, At = search) = 1 ↵
I La recompensa puede ser el número de latas recogidas
Ejemplo: MDP del robot
Example: robot MDP

Sutton & Barto


Ejemplo: MDP del robot
Example: robot MDP

Sutton & Barto


Componentes del agente

Componentes del agente


I Estado del agente
I Polı́tica
I Función de valor
I Modelo
Polı́tica del agente

I La polı́tica define el comportamiento del agente


Polı́tica del agente

I La polı́tica define el comportamiento del agente


I Estocasticidad:
I Polı́tica determinı́stica: ⇡ : S ! A
I Polı́tica estocástica: ⇡(A | S) = p(A | S)
Polı́tica del agente

I La polı́tica define el comportamiento del agente


I Estocasticidad:
I Polı́tica determinı́stica: ⇡ : S ! A
I Polı́tica estocástica: ⇡(A | S) = p(A | S)

I Estacionariedad:
I Polı́tica no-estacionaria: depende del tiempo ⇡t (A | S)
I Polı́tica estacionaria: independiente del tiempo: ⇡t = ⇡ para todo t
Objetivo del agente

I Maximizar el retorno esperado respecto a la secuencia de acciones a0 , . . . , aH 1


"H 1 # ⇢
X St+1 ⇠ p(S|St , At = at )
E R t | S0 = s con
Rt ⇠ p(R|St , At = at )
t=0

I La esperanza se calcula sobre la dinámica del problema y la polı́tica del agente


Objetivo del agente

I Maximizar el retorno esperado respecto a la secuencia de acciones a0 , . . . , aH 1


"H 1 # ⇢
X St+1 ⇠ p(S|St , At = at )
E R t | S0 = s con
Rt ⇠ p(R|St , At = at )
t=0

I La esperanza se calcula sobre la dinámica del problema y la polı́tica del agente


I La dinámica es estocástica: el agente elige una acción luego de observar st
Objetivo del agente

I Maximizar el retorno esperado respecto a la secuencia de acciones a0 , . . . , aH 1


"H 1 # ⇢
X St+1 ⇠ p(S|St , At = at )
E R t | S0 = s con
Rt ⇠ p(R|St , At = at )
t=0

I La esperanza se calcula sobre la dinámica del problema y la polı́tica del agente


I La dinámica es estocástica: el agente elige una acción luego de observar st
I Esto permite al agente mitigar incertidumbre a travez de incorporar
realimentación
Objetivo del agente

I Maximizar el retorno esperado respecto a la secuencia de acciones a0 , . . . , aH 1


"H 1 # ⇢
X St+1 ⇠ p(S|St , At = at )
E R t | S0 = s con
Rt ⇠ p(R|St , At = at )
t=0

I La esperanza se calcula sobre la dinámica del problema y la polı́tica del agente


I La dinámica es estocástica: el agente elige una acción luego de observar st
I Esto permite al agente mitigar incertidumbre a travez de incorporar
realimentación
I Es un problema de optimización de laso cerrado
Objetivo del agente

I Maximizar el retorno esperado respecto a la secuencia de acciones a0 , . . . , aH 1


"H 1 # ⇢
X St+1 ⇠ p(S|St , At = at )
E R t | S0 = s con
Rt ⇠ p(R|St , At = at )
t=0

I La esperanza se calcula sobre la dinámica del problema y la polı́tica del agente


I La dinámica es estocástica: el agente elige una acción luego de observar st
I Esto permite al agente mitigar incertidumbre a travez de incorporar
realimentación
I Es un problema de optimización de laso cerrado
I No optimizamos sobre secuencias deterministicas de acciones, sino sobre una
secuancia de polı́ticas: ⇡0 , . . . , ⇡H 1 con ⇡k 2 ⇧
I Polı́tica: mapeo de cada posible estado a una acción
Retorno y episodios

I Tareas episódicas:
I Horizonte finito tiene sentido cuando la experiencia se puede sub-dividir en episodios
I El episodio termina cuando se alcanza un estado terminal, luego el agente vuelve a
un estado inicial (potencialmente aleatorio)
I Polı́ticas no-estacionarias pueden jugar un rol importante (Bertsekas et al., 1995)

I Tareas continuadas:
I La experiencia es continua, no se puede dividir naturalmente
I Las polı́ticas estacionarias aparecen de forma natural
I Puede considerar el caso episodio incluyendo estados absorventes
Retorno en tareas continuadas

I La extensión del retorno con horizonte H al caso infinito es problematica:


H
X1
Gt = lim Rt+k+1
H!1
k=0

I El retorno puede ser infinito: cómo comparar dos poliı́ticas con retorno infinito?
Retorno en tareas continuadas

I La extensión del retorno con horizonte H al caso infinito es problematica:


H
X1
Gt = lim Rt+k+1
H!1
k=0

I El retorno puede ser infinito: cómo comparar dos poliı́ticas con retorno infinito?
I Una posibilidad (que se utiliza también en la práctica) es la cantidad:
H 1
1 X
Gt = lim Rt+k+1
H!1 H
k=0
Retorno en tareas continuadas

I La extensión del retorno con horizonte H al caso infinito es problematica:


H
X1
Gt = lim Rt+k+1
H!1
k=0

I El retorno puede ser infinito: cómo comparar dos poliı́ticas con retorno infinito?
I Una posibilidad (que se utiliza también en la práctica) es la cantidad:
H 1
1 X
Gt = lim Rt+k+1
H!1 H
k=0

I Esta formulación es matemáticamente dificil de analizar. Preferimos utilizar


retornos descontados
Retorno descontado

I Retornos Gt : recompensa descontada total, con 2 [0, 1], a partir del instante de
tiempo t:
1
X
k
Gt = Rt+1 + Rt+2 + . . . = Rt+k+1
k=0
I Para una polı́tica estacionaria: Gt = Rt+1 + Gt+1
I Ésta es una variable aleatoria que depende del MDP y de la polı́tica
Retorno descontado

I Retornos Gt : recompensa descontada total, con 2 [0, 1], a partir del instante de
tiempo t:
1
X
k
Gt = Rt+1 + Rt+2 + . . . = Rt+k+1
k=0
I Para una polı́tica estacionaria: Gt = Rt+1 + Gt+1
I Ésta es una variable aleatoria que depende del MDP y de la polı́tica
I El descuento 2 [0, 1] define el valor presente de las recompensas futuras
I k
El valor marginal de recibir una recompensa R tras k + 1 instantes de tiempo es R
I Para < 1, recompensas inmediatas son más importantes que las futuras
I cerca de 0 da lugar a una evaluación ”miope”
I cerca de 1 da lugar a una evaluación ”mirando a lo lejos”
Retorno descontado

I Retornos Gt : recompensa descontada total, con 2 [0, 1], a partir del instante de
tiempo t:
1
X
k
Gt = Rt+1 + Rt+2 + . . . = Rt+k+1
k=0
I Para una polı́tica estacionaria: Gt = Rt+1 + Gt+1
I Ésta es una variable aleatoria que depende del MDP y de la polı́tica
I El descuento 2 [0, 1] define el valor presente de las recompensas futuras
I k
El valor marginal de recibir una recompensa R tras k + 1 instantes de tiempo es R
I Para < 1, recompensas inmediatas son más importantes que las futuras
I cerca de 0 da lugar a una evaluación ”miope”
I cerca de 1 da lugar a una evaluación ”mirando a lo lejos”
I El MDP está determinado por la tupla (S, A, R, p, )
Retorno descontado

I Retornos Gt : recompensa descontada total, con 2 [0, 1], a partir del instante de
tiempo t:
1
X
k
Gt = Rt+1 + Rt+2 + . . . = Rt+k+1
k=0
I Para una polı́tica estacionaria: Gt = Rt+1 + Gt+1
I Ésta es una variable aleatoria que depende del MDP y de la polı́tica
I El descuento 2 [0, 1] define el valor presente de las recompensas futuras
I k
El valor marginal de recibir una recompensa R tras k + 1 instantes de tiempo es R
I Para < 1, recompensas inmediatas son más importantes que las futuras
I cerca de 0 da lugar a una evaluación ”miope”
I cerca de 1 da lugar a una evaluación ”mirando a lo lejos”
I El MDP está determinado por la tupla (S, A, R, p, )
I Siempre hay una polı́tica óptima que es estacionaria
¿Por qué descontar?

I Matemáticamente es conveniente descontar las recompensas


I Evita retornos infinitos en procesos de Markov cı́clicos
I Recompensas inmediatas pueden de hecho ser más valorables
I El comportamiento animal/humano muestra preferencia por las recompensas
inmediatas
I A veces podemos usar procesos de recompensa de Markov sin descuento
(i.e. = 1), e.g. si sabemos que todas las secuencas terminan
I Notar que la recompensa y el descuento juntos determinan el objetivo
Componentes del agente

Componentes del agente


I Estado del agente
I Polı́tica
I Función de valor
I Modelo
Función de valor
I La función de valor de la polı́tica ⇡ es el retorno esperado
v⇡ (s) = E [Gt | St = s, ⇡]
⇥ 2

= E Rt+1 + Rt+2 + Rt+3 + . . . | St = s, ⇡
Función de valor
I La función de valor de la polı́tica ⇡ es el retorno esperado
v⇡ (s) = E [Gt | St = s, ⇡]
⇥ 2

= E Rt+1 + Rt+2 + Rt+3 + . . . | St = s, ⇡

I El valor de una polı́tica estacionaria tiene una forma recursiva


v⇡ (s) = E [Rt+1 + Gt+1 | St = s, ⇡]
Función de valor
I La función de valor de la polı́tica ⇡ es el retorno esperado
v⇡ (s) = E [Gt | St = s, ⇡]
⇥ 2

= E Rt+1 + Rt+2 + Rt+3 + . . . | St = s, ⇡

I El valor de una polı́tica estacionaria tiene una forma recursiva


v⇡ (s) = E [Rt+1 + Gt+1 | St = s, ⇡]
X XX ⇥ ⇤
= ⇡(a | s) p(r , s 0 | s, a)(r + E Gt+1 | St+1 = s 0 , ⇡ )
a r s0

I Esto se conoce como la ecuación de valor de Bellman (Bellman 1957)


Función de valor
I La función de valor de la polı́tica ⇡ es el retorno esperado
v⇡ (s) = E [Gt | St = s, ⇡]
⇥ 2

= E Rt+1 + Rt+2 + Rt+3 + . . . | St = s, ⇡

I El valor de una polı́tica estacionaria tiene una forma recursiva


v⇡ (s) = E [Rt+1 + Gt+1 | St = s, ⇡]
X XX ⇥ ⇤
= ⇡(a | s) p(r , s 0 | s, a)(r + E Gt+1 | St+1 = s 0 , ⇡ )
a r s0
X XX
= ⇡(a | s) p(r , s 0 | s, a)(r + v⇡ (s 0 ))
a r s0

I Esto se conoce como la ecuación de valor de Bellman (Bellman 1957)


Función de valor
I La función de valor de la polı́tica ⇡ es el retorno esperado
v⇡ (s) = E [Gt | St = s, ⇡]
⇥ 2

= E Rt+1 + Rt+2 + Rt+3 + . . . | St = s, ⇡

I El valor de una polı́tica estacionaria tiene una forma recursiva


v⇡ (s) = E [Rt+1 + Gt+1 | St = s, ⇡]
X XX ⇥ ⇤
= ⇡(a | s) p(r , s 0 | s, a)(r + E Gt+1 | St+1 = s 0 , ⇡ )
a r s0
X XX
= ⇡(a | s) p(r , s 0 | s, a)(r + v⇡ (s 0 ))
a r s0
= E [Rt+1 + v⇡ (St+1 ) | St = s, At ⇠ ⇡(s)]

I Esto se conoce como la ecuación de valor de Bellman (Bellman 1957)


Valores de acción

I Es posible condicionar el valor en las acciones:

q⇡ (s, a) = E [Gt | St = s, At = a]
⇥ ⇤
= E Rt+1 + Rt+2 + 2 Rt+3 + . . . | St = s, At = a

I Hablaremos en profundidad sobre estados y valores de acción más adelante


Función de Valor Óptima

Definición
La función de valor óptima v ⇤ (s) es la máxima función de valor entre todas las polı́ticas

v ⇤ (s) = max v⇡ (s)


La función de valor de acción óptima q ⇤ (s, a) es la máxima función de acción-valor


sobre todas las polı́ticas
q ⇤ (s, a) = max q⇡ (s, a)

I La función de valor óptima especifica la mejor performance posible en el MDP


Encontrando la Polı́tica Óptima

Una polı́tica óptima puede encontrarse maximizando sobre q ⇤ (s, a),

⇡ ⇤ (s) = argmax q ⇤ (s, a)


a2A

I Siempre hay una polı́tica óptima determinı́stica para cualquier MDP


I Si conocemos q ⇤ (s, a), inmediatamente tenemos la polı́tica óptima
I Pueden haber múltiples polı́ticas óptimas
I Si múltiples acciones maximizan q(s, ·), podemos elegir cualquiera de ellas
(incluso estocásticamente)
Aproximaciones a la función de valor

I El agente muchas veces aproxima la función de valor


I Discutiremos algoritmos para aprender estas funciones eficientemente
I Con una función de valor precisa, podemos actuar de forma óptima
I Con aproximaciones adecuadas, podemos actuar bien, incluso en espacios de
estado muy grandes
Componentes del agente

Componentes del agente


I Estado del agente
I Polı́tica
I Función de valor
I Modelo
Modelo

I Un modelo predice que va a hacer el ambiente a continuación


I Por ej., P predice el siguiente estado

P(s, a, s 0 ) ⇡ p(St+1 = s 0 | St = s, At = a)

I Por ej., R predice la siguiente recompensa (inmediata)

R(s, a) ⇡ E [Rt+1 | St = s, At = a]

I Un modelo no nos da inmediatamente una buena polı́tica, todavı́a debemos


planificar
I Se pueden considerar también modelos estocásticos (generativos)
Ejemplo: Laberinto
Maze Example

Start
I Recompensas: -1 por instante de
I Rewards: -1 per time-step
I
tiempo
Actions: N, E, S, W
I
I States:Acciones: N, E, S, O
Agent’s location
I Estados: ubicación del agente
Goal
Ejemplo: Laberinto: Polı́tica

Start

Goal

I Las flechas representan la polı́tica ⇡(s) para cada estado s


Ejemplo: Laberinto: Función de valor

-14 -13 -12 -11 -10 -9

Start -16 -15 -12 -8

-16 -17 -6 -7

-18 -19 -5

-24 -20 -4 -3

-23 -22 -21 -22 -2 -1 Goal

I Los números representan el valor v⇡ (s) para cada estado s


Ejemplo: Laberinto: Modelo
-1 -1 -1 -1 -1 -1

Start -1 -1 -1 -1

-1 -1 -1

-1

-1 -1

-1 -1 Goal

I La grilla representa el modelo de transiciones parciales a


Pss
a 0
Categorización de agentes

I Basados en Valor
I Sin polı́tica (implı́cita)
I Función de Valor
I Basados en Polı́tica
I Polı́tica
I Sin función de Valor
I Actor-Crı́tico
I Polı́tica
I Función de Valor
Categorización de agentes

I Sin Modelo
I Polı́tica y/o función de valor
I Sin modelo
I Basado en Modelo
I Opcionalmente polı́tica y/o función de valor
I Modelo
I Actor-Crı́tico
I Polı́tica
I Función de Valor
Taxonomı́a de agentes
Agent Taxonomy

Model-Free

Value Function Actor Policy


Critic

Value-Based Policy-Based

Model-Based

Model

David Silver
Desafı́os en Aprendizaje por Refuerzo
Aprendizaje y Planeamiento

Dos problemas fundamentales en Aprendizaje por Refuerzo:


I Aprendizaje:
I El ambiente es inicialmente desconocido
I El agente interactúa con el ambiente
I Planeamiento:
I Un modelo del ambiente es dado
I El agente planea sobre este modelo (sin interacción externa)
Control y Predicción

I Predicción: evaluar el futuro (para una polı́tica dada)


I Control: optimizar el futuro (encontrar la mejor polı́tica)
I Están fuertemente ligadas:

⇡⇤ (s) = argmax v⇡ (s)



Aprendiendo los componentes de un agente

I Todos los componentes son funciones


I Polı́ticas mapean estados a acciones
I Funciónes de valor mapean estados a valores
I Modelos mapean estados a estados y/o a recompensas
I Actualización de estados mapea estados y observaciones a nuevos estados
I Podrı́amos representar todas estas funciones con redes neuronales y luego utilizar
métodos de Aprendizaje Profundo para optimizarlas
I El Aprendizaje por Refuerzo Profundo es una área rica y activa de investigación
I Las redes neuronales (actuales) no son siempre la mejor herramienta (pero
muchas veces funcionan bien)
Ejemplo: Atari por RL
Atari Example: Reinforcement Learning

observation action

ot at
I Las reglas del juego son
I desconocidas
Rules of the game are
unknown
I Se aprenden directamente de
reward rt I Learn directly from
interactivelagame-play
interacción durante el juego
I I Elige
Pick actions acciones
on joystick,del joystick, ve
see
pixels and scores
pixels y puntajes
Ejemplo: Planeamiento en Atari
Atari Example: Planning

I Las reglas del juego son conocidas


I Se cuenta con un emulador: modelo
I Rules of the game are known
perfecto
I
I Si tomoCan
la query emulator: perfect model
acción a desde el estado s: right left

I If I take action a from state s:


I ¿CuálI será el próximo estado?
what would the next state be?
I ¿CuálI será
what el puntaje?
would the score be?
I Planear hacia
I Plan adelante
ahead para encontrar
to find optimal policy la
polı́tica óptima
I Later versions add noise, to break algorithms right left right left

I thatposteriores
Versiones rely on determinism
agregan ruido para
romper algoritmos que se apoyan en el
determinismo
Exploración y Explotación

I Aprendemos por ensayo y error


I El agente debe descubrir una buena polı́tica
I ... a partir de nuevas experiencias
I ... sin sacrificar mucha recompensa en el camino
Exploración y Explotación

I Exploración encuentra más información


I Explotación explota la informacion conocida para maximizar la recompensa
I Es importante explorar tanto como explotar
I Este es un problema fundamental que no ocurre en aprendizaje supervisado
Ejemplos

I Elección de restaurant
Explotación Ir a tu restaurant favorito
Exploración Probar un restaurant nuevo
I Perforaciones petroleras
Explotación Perforar la mejor ubicación conocida
Exploración Perforar una ubicación nueva
I Juegos
Explotación Jugar la movida que en el momento parece la mejor
Exploración Probar una nueva estrategia
Gridworld Example: Prediction
Ejemplo: Gridworld: Predicción

A B 3.3 8.8 4.4 5.3 1.5


+5 1.5 3.0 2.3 1.9 0.5
+10 B’ 0.1 0.7 0.7 0.4 -0.4

-1.0 -0.4 -0.4 -0.6 -1.2


Actions
A’ -1.9 -1.3 -1.2 -1.4 -2.0

(a) (b)
Reward is 1 when bumping into a wall, = 0.9
La recompensa es 1 cuando se choca contra un borde
What is the value function for the uniform random policy?

¿Cuál es la función de valor para la polı́tica aleatoria uniforme?


GridworldGridworld:
Ejemplo: Example: Control
Control

A B 22.0 24.4 22.0 19.4 17.5

+5 19.8 22.0 19.8 17.8 16.0

+10 B’ 17.8 19.8 17.8 16.0 14.4

16.0 17.8 16.0 14.4 13.0

A’ 14.4 16.0 14.4 13.0 11.7

a) gridworld b) V* c) π *
What es
¿Cuál is the optimaldevalue
la función valorfunction
óptima over
entrealltodas
possible policies?
las polı́ticas?
What es
¿Cuál is the optimalóptima?
la polı́tica policy?
Curso

Los tópicos incluyen:


I Martes:
I Bandits, conceptos exploración y explotación
I Procesos de decisión de Markov, y planeamiento por programación dinámica
I Miercoles:
I Predicción y control sin modelo (p.ej. Q-learning)
I Conceptos básicos de aprendizaje profundo
I Jueves:
I Aprendizaje profundo por refuerzos
I Métodos de gradiente de polı́tica (policy-gradient)
I Viernes:
I Integración de aprendizaje y planeamiento
I Desafı́os en aprendizaje profundo por refuerzo

Anda mungkin juga menyukai