Anda di halaman 1dari 20

Aprendizaje a partir de observaciones

Modelo general de agentes que aprenden


Estandar de desempeo Crtico
Retroalimentacin Cambios

Sensores

Elemento de Aprendizaje

Elemento Retroalide mentacin desempeo

Conocim. Objetivos de aprendizaje Generador Efectores de Problemas

Agente

A M B I E N T E

Componentes conceptuales del modelo


Elemento de aprendizaje: responsable de realizar mejoras. Elemento de desempeo: responsable de seleccionar acciones externas.

Crtico: diseado para decirle al elemento de aprendizaje cuan bien se desempea el agente. Usa un estandar de desempeo fijo (conceptualmente fuera del agente). Generador de problemas: responsable de sugerir acciones que llevarn a experiencias nuevas e informativas.

Factores que afectan el diseo del elemento de aprendizaje


Qu componentes del elemento de desempeo van a ser mejorados Qu representacin se usa para esos componentes Qu retroalimentacin hay disponible Qu informacin previa hay disponible

Componentes del elemento de desempeo


Cada uno de los siete componentes del elemento de desempeo puede ser descripto matemticamente como una funcin. El punto clave es que todo el aprendizaje puede verse como aprender la representacin de una funcin.
Un mapeo directo de condiciones en el estado actual, a acciones. Un medio para inferir propiedades relevantes del mundo a partir de la secuencia de percepciones. Informacin acerca del modo en que evoluciona el mundo. Informacin acerca de los resultados de posibles acciones que puede realizar el agente. Informacin de utilidad indicando cuan deseables son los estados del mundo. Informacin del valor de cada accin indicando cuan deseables son las acciones particulares en estados particulares. Objetivos que describen clases de estados cuyos desenvolvimientos maximizan la utilidad del agente.

Crtico, Generador de problemas

Crtico: diseado para informar al elemento de aprendizaje cuan bien est haciendo las cosas el agente. Usa un estndar de desempeo fijo. Generador de problemas: responsable de sugerir acciones que llevarn a nuevas experiencias informativas. Si el agente explora un poco, y realiza algunas acciones tal vez subptimas en el corto plazo, puede descubrir acciones mucho mejores en el largo plazo.

Aprendizaje inductivo
Un ejemplo es un par (x, f(x)), donde x es la entrada y f(x) es la salida de la funcin aplicada a x. Induccin. Dada una coleccin de ejemplos de f, su tarea es devolver una funcin h, la hiptesis, que sea aproximadamente igual a f. Cualquier preferencia por una hiptesis sobre otra, ms all de la mera consistencia con los ejemplos, se denomina bias(desvo). Todos los algoritmos exhiben algn grado de desvo dado que casi siempre hay un gran nmero de hiptesis consistentes posibles. En el aprendizaje hay una solucin de compromiso fundamental entre expresividad -es la funcin deseada representable en el lenguaje de representacin?- y eficiencia -ser el problema de aprendizaje tratable para una eleccin dada del lenguaje de representacin?-

Aprendizaje por rboles de decisin


La induccin por rbol de decisin es una de las ms simples y ms exitosas formas de algoritmo de aprendizaje.

Arboles de decisin como elemento de desempeo


Un rbol de decisin toma como entrada un objeto o situacin descripto por un conjunto de propiedades, y da como salida una decisin si/no. Cada nodo interno en el rbol corresponde a una prueba del valor de una de las propiedades, y las ramas desde el nodo estn etiquetadas con los valores posibles del test. Cada nodo hoja en el rbol especifica el valor Booleano que se retornar si esa hoja es alcanzada.

Ejemplo: Arbol de decisin para decidir si esperar por una mesa en un restaurant
Ning. Gente en el Restaurante? Algunos Lleno Espera estimada? 30 - 60 Restaurante alternativo? No Reservaciones? No Si No Si Vi/Sa Si No 10 - 30 Hambriento? Si Restaurante alternativo? No Si 0 - 10

No
>60

Si No

Si

Si

Bar?
No Si

Si

No

Si

Si
No

Llueve?
Si

No

Si

No

Si

Expresividad de los rboles de decisin

Los rboles de decisin no pueden representar ningn conjunto, dado que son implcitamente limitados a hablar de un solo objeto. El lenguaje del rbol es esencialmente proposicional, siendo cada prueba de atributo una proposicin. No hay ningn tipo de representacin que sea eficiente para todos los tipos de funcin.

Induccin de rboles de decisin a partir de ejemplos


Un ejemplo es descripto por los valores de los atributos y el valor del predicado objetivo.

Navaja de Ockham, principio general de aprendizaje induc-tivo: La hiptesis ms probable es la ms simple que sea consistente con todas las observaciones.
Desafortunadamente, encontrar el rbol de decisin ms pe-queo es un problema intratable, pero con algunas heursti-cas simples, podemos hacer un buen trabajo encontrando uno pequeo. La idea bsica detrs del algoritmo de aprendizaje por medio del rbol de decisin es probar el atributo ms im-portante primero (el atributo que hace la mayor diferencia en la clasificacin de un ejemplo). Despus de que la prueba del primer atributo divide los ejemplos, cada resultado es un problema de aprendizaje por rbol de decisin en s mismo, con menos ejemplos y un atributo menos.

Ejemplos

Atributos
Alt
Bar Vie Ham Gente Precio Llueve Reser Tipo Espera

Objetivo Esperar

X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12

Si Si No Si Si No No No No Si No Si

No No Si No No Si Si No Si Si No Si

No No No Si Si No No No Si Si No Si

Si Si No Si No Si No Si No Si No Si

Alg $$$ Llen $ Alg $ Llen $ Llen $$$ Alg $$ Nng $ Alg $$ Llen $ Llen $$$ Nng $ Llen $

No No No No No Si Si Si Si No No No

Si Frnc No Thai No Brgr No Thai Si Frnc Si Ital No Brgr Si Thai No Brgr Si Ital No Thai No Brgr

0-10 30-60 0-10 10-30 >60 0-10 0-10 0-10 >60 10-30 0-10 30-60

Si No Si Si No Si No Si No No No Si

Casos a considerar
1. 2. 3. Si hay algunos ejemplos positivos o negativos, elegir el mejor atributo para dividirlos. Si todos los ejemplos que restan son positivos ( o todos negativos), hemos terminado: podemos contestar Si o No. Si no quedan ejemplos, significa que no se ha observado tal tipo de ejemplo, y devolvemos un valor por omisin calculado a partir de la clasificacin de mayora en el padre del nodo.

4.

Si no quedan atributos, pero s ejemplos positivos y negativos, tenemos un problema. Significa que estos ejemplos tienen exactamente la misma descripcin, pero clasificaciones diferentes. Esto ocurre cuando algunos de estos datos son incorrectos; decimos que hay ruido en la informacin. Tambin sucede cuando los atributos no dan suficiente informacin para describir completamente la situacin, o cuando el dominio es verdaderamente no determinstico. Una forma simple de salir de este problema es usar el voto de mayora.

Arbol resultante
Ning. Clientes en el Restaurante Algunos Lleno Tiene hambre Si Tipo Franc Italiano Thai Vie/Sb No Si No

No

Si

No
Burger

Si

No No

Si Si

El rbol es diferente del rbol original. El algoritmo de aprendizaje ve los ejemplos, no la funcin correcta, y de hecho, su hiptesis no solo concuerda con todos los ejemplos, sino que es considerablemente ms simple que el rbol original.

Evaluacin del rendimiento del algoritmo de apredizaje


Un algoritmo de aprendizaje es bueno si produce una hiptesis que predice bien la clasificacin de ejemplos an no vistos.

Una metodologa posible para evaluar las predicciones es la sig.:


1. Recolectar un gran conjunto de ejemplos. 2. Dividirlo en dos conjuntos disjuntos: el conjunto de entrenamiento y el conjunto de prueba. 3. Usar el algoritmo de aprendizaje con el conjunto de entrenamiento como ejemplos para generar una hiptesis H.

4. Medir el porcentaje de ejemplos, en el conjunto de prueba, que son correctamente clasificados por H.
5. Repetir los pasos 1 a 4 para diferentes tamaos de conjuntos de entrenamiento y diferentes conj.de entrenam de cada tamao, seleccionados al azar. (ver fig. 18.9 Curva de aprendizaje)

Hiptesis lgicamente consistente


Dos enfoques que encuentran hiptesis lgicamente consistentes son: 1. Bsqueda segn la mejor hiptesis actual.

2. Bsqueda con mnimo compromiso.


Bsqueda segn la mejor hiptesis actual mantiene una hiptesis, y la ajusta a medida que llegan nuevos ejemplos, para mantener la consistencia. -- - -- - -- - -- - -- - + + + + + + + + + + - - - + + + + + - - + + + - - + + + - - + + + + + + + + + (+) + + + + + + - - - - - (-) - - - - (a) - - - (b) - - - (c) - - - (d) - - - (e) (a) Hiptesis consistente. (b) falso negativo. (c) La hiptesis es generalizada. (d) falso positivo. (e) La hiptesis es especializada.

Hiptesis lgicamente consistente (continuacin)


Bsqueda con mnimo compromiso mantiene todas las hiptesis consistentes con toda la informacin acumulada hasta el momento. El espacio de hiptesis original se puede ver como una oracin disyuntiva H1 H2 H3 H4 ... Hn A medida que encontramos que varias hiptesis son inconsistentes con los ejemplos, la disyuncin se reduce. Una propiedad importante de este enfoque es que es incremental: uno nunca debe volver y reexaminar los ejemplos anteriores. Todas la hiptesis que quedan son consistentes con ellos. Tenemos un orden en el espacio de hiptesis, generalizacin/especializacin. Este es un orden parcial, cada lmite no ser un punto sino un conjunto de hiptesis llamado conjunto lmite. Podemos representar el espacio de versin completo usando slo dos espacios lmite: Lmite ms general (conj-G) y Lmite ms especfico (conj-E), todo lo que est entre ellos ser consistente con los ejemplos.

Hiptesis lgicamente consistente (continuacin)


El espacio de versin inicial (antes de haber visto algn ejemplo) represente todas las hiptesis posibles: conj-G =V (la hiptesis que contiene todo),y conj-E = F (la hiptesis cuya extensin est vaca).

-- -

G1

- - - - -

+ + + + ++ + + + -

G2 -

Extensin de los miembros de G y E. Ningn ejemplo conocido se encuentra entre los conjuntos G yE.

Uso de la Teora de la Informacin


Un rbol de decisin examina el conjunto de datos, y usa teora de la informacin para determinar cul es el atributo que contiene la mayor informacin sobre la cual basar una decisin. Teora de la Informacin En general, si las posibles respuestas vi tienen probabilidad P(vi), entonces la cantidad de informacin I de la respuesta real es obtenida de la siguiente manera:

I(P(v1), P(v2),..., P(vn)) = -P(vi)log2P(vi)


i=1

esto es el contenido de informacin promedio de los distintos eventos (el trmino -log2P) multiplicado por la probabilidad de cada evento.

Uso de la Teora de la Informacin (continuacin)


En el caso de rboles de decisin se debe hallar la respuesta a la pregunta para un ejemplo dado, cul es la clasificacin correcta? Una estimacin de las probabilidades de una respuesta posible, antes de haber probado algn atributo, est dada por la proporcin de ejemplos positivos y negativos en el conjunto de entrenamiento: I(p/(p+n), n/(p+n))= - (p/(p+n)).log2(p/(p+n)) - (n/(p+n)). log2(n/(p+n))
(p/(p+n)) -log2(p/(p+n)) probabilidad de que ocurra un caso positivo contenido de informacin de ese evento

En promedio, luego de probar un atributo A, todava necesitaremos para v valores distintos de A: Resto(A) =

((pi + ni)/(p+n)).I(pi/(pi + ni), ni/(pi + ni))


i=1

bits de informacin, donde i va desde 1 hasta v. Ganancia(A) = I(p/(p + n), n/(p + n)) Resto(A) Siendo I(p/(p + n), n/(p + n)) el requerimiento original de informacin.

Anda mungkin juga menyukai