Sensores
Elemento de Aprendizaje
Agente
A M B I E N T E
Crtico: diseado para decirle al elemento de aprendizaje cuan bien se desempea el agente. Usa un estandar de desempeo fijo (conceptualmente fuera del agente). Generador de problemas: responsable de sugerir acciones que llevarn a experiencias nuevas e informativas.
Crtico: diseado para informar al elemento de aprendizaje cuan bien est haciendo las cosas el agente. Usa un estndar de desempeo fijo. Generador de problemas: responsable de sugerir acciones que llevarn a nuevas experiencias informativas. Si el agente explora un poco, y realiza algunas acciones tal vez subptimas en el corto plazo, puede descubrir acciones mucho mejores en el largo plazo.
Aprendizaje inductivo
Un ejemplo es un par (x, f(x)), donde x es la entrada y f(x) es la salida de la funcin aplicada a x. Induccin. Dada una coleccin de ejemplos de f, su tarea es devolver una funcin h, la hiptesis, que sea aproximadamente igual a f. Cualquier preferencia por una hiptesis sobre otra, ms all de la mera consistencia con los ejemplos, se denomina bias(desvo). Todos los algoritmos exhiben algn grado de desvo dado que casi siempre hay un gran nmero de hiptesis consistentes posibles. En el aprendizaje hay una solucin de compromiso fundamental entre expresividad -es la funcin deseada representable en el lenguaje de representacin?- y eficiencia -ser el problema de aprendizaje tratable para una eleccin dada del lenguaje de representacin?-
Ejemplo: Arbol de decisin para decidir si esperar por una mesa en un restaurant
Ning. Gente en el Restaurante? Algunos Lleno Espera estimada? 30 - 60 Restaurante alternativo? No Reservaciones? No Si No Si Vi/Sa Si No 10 - 30 Hambriento? Si Restaurante alternativo? No Si 0 - 10
No
>60
Si No
Si
Si
Bar?
No Si
Si
No
Si
Si
No
Llueve?
Si
No
Si
No
Si
Los rboles de decisin no pueden representar ningn conjunto, dado que son implcitamente limitados a hablar de un solo objeto. El lenguaje del rbol es esencialmente proposicional, siendo cada prueba de atributo una proposicin. No hay ningn tipo de representacin que sea eficiente para todos los tipos de funcin.
Navaja de Ockham, principio general de aprendizaje induc-tivo: La hiptesis ms probable es la ms simple que sea consistente con todas las observaciones.
Desafortunadamente, encontrar el rbol de decisin ms pe-queo es un problema intratable, pero con algunas heursti-cas simples, podemos hacer un buen trabajo encontrando uno pequeo. La idea bsica detrs del algoritmo de aprendizaje por medio del rbol de decisin es probar el atributo ms im-portante primero (el atributo que hace la mayor diferencia en la clasificacin de un ejemplo). Despus de que la prueba del primer atributo divide los ejemplos, cada resultado es un problema de aprendizaje por rbol de decisin en s mismo, con menos ejemplos y un atributo menos.
Ejemplos
Atributos
Alt
Bar Vie Ham Gente Precio Llueve Reser Tipo Espera
Objetivo Esperar
Si Si No Si Si No No No No Si No Si
No No Si No No Si Si No Si Si No Si
No No No Si Si No No No Si Si No Si
Si Si No Si No Si No Si No Si No Si
Alg $$$ Llen $ Alg $ Llen $ Llen $$$ Alg $$ Nng $ Alg $$ Llen $ Llen $$$ Nng $ Llen $
No No No No No Si Si Si Si No No No
Si Frnc No Thai No Brgr No Thai Si Frnc Si Ital No Brgr Si Thai No Brgr Si Ital No Thai No Brgr
0-10 30-60 0-10 10-30 >60 0-10 0-10 0-10 >60 10-30 0-10 30-60
Si No Si Si No Si No Si No No No Si
Casos a considerar
1. 2. 3. Si hay algunos ejemplos positivos o negativos, elegir el mejor atributo para dividirlos. Si todos los ejemplos que restan son positivos ( o todos negativos), hemos terminado: podemos contestar Si o No. Si no quedan ejemplos, significa que no se ha observado tal tipo de ejemplo, y devolvemos un valor por omisin calculado a partir de la clasificacin de mayora en el padre del nodo.
4.
Si no quedan atributos, pero s ejemplos positivos y negativos, tenemos un problema. Significa que estos ejemplos tienen exactamente la misma descripcin, pero clasificaciones diferentes. Esto ocurre cuando algunos de estos datos son incorrectos; decimos que hay ruido en la informacin. Tambin sucede cuando los atributos no dan suficiente informacin para describir completamente la situacin, o cuando el dominio es verdaderamente no determinstico. Una forma simple de salir de este problema es usar el voto de mayora.
Arbol resultante
Ning. Clientes en el Restaurante Algunos Lleno Tiene hambre Si Tipo Franc Italiano Thai Vie/Sb No Si No
No
Si
No
Burger
Si
No No
Si Si
El rbol es diferente del rbol original. El algoritmo de aprendizaje ve los ejemplos, no la funcin correcta, y de hecho, su hiptesis no solo concuerda con todos los ejemplos, sino que es considerablemente ms simple que el rbol original.
4. Medir el porcentaje de ejemplos, en el conjunto de prueba, que son correctamente clasificados por H.
5. Repetir los pasos 1 a 4 para diferentes tamaos de conjuntos de entrenamiento y diferentes conj.de entrenam de cada tamao, seleccionados al azar. (ver fig. 18.9 Curva de aprendizaje)
-- -
G1
- - - - -
+ + + + ++ + + + -
G2 -
Extensin de los miembros de G y E. Ningn ejemplo conocido se encuentra entre los conjuntos G yE.
esto es el contenido de informacin promedio de los distintos eventos (el trmino -log2P) multiplicado por la probabilidad de cada evento.
En promedio, luego de probar un atributo A, todava necesitaremos para v valores distintos de A: Resto(A) =
bits de informacin, donde i va desde 1 hasta v. Ganancia(A) = I(p/(p + n), n/(p + n)) Resto(A) Siendo I(p/(p + n), n/(p + n)) el requerimiento original de informacin.