Tesis doctoral de Alejandro Gabriel Agostini
En esta tesis proponemos una estrategia de generalizaci¿on para aprendizaje por refuerzo en entornos continuos que, en lugar de usar un solo aproximador de funciones, prueba m¿ultiples aproximadores de funciones en paralelo, cada uno definido en una regi¿on diferente del dominio, que compiten para proveer la inferencia en un punto dado. El uso de una estrategia competitiva incrementa las oportunidades de tener un buen aproximador entre los que compiten, evitando la restricci¿on de estar supeditado a el desempe ¿no de un solo aproximador. La estrategia propuesta permite reducir el n¿umero de experiencias necesarias para la convergencia y conseguir una convergencia m¿as estable con respecto a la que se obtiene usando un solo aproximador. La reducci¿on en el n¿umero de experiencias se debe a que, en cada punto evaluado, en general existe un aproximador dentro de los que compiten que generaliza mejor que un aproximador ¿unico y global. La convergencia m¿as estable se debe a que, si la aproximaci¿on de un aproximador se degrada, ¿este ser¿a respaldado por otro aproximador que normalmente tendr¿a mejor desempe¿no, manteniendo un buen desempe¿no global del sistema. para la selecci¿on del mejor aproximador en un punto el m¿etodo asocia a cada aproximador una funci¿on de relevancia que cuantifica la calidad de su aproximaci¿on en el punto dado. El aproximador con mayor relevancia en el punto es seleccionado para la inferencia. La funci¿on de relevancia se define usando una estimaci¿on param¿etrica de la varianza muestral y una estimaci¿on param¿etrica de la densidad muestral en el dominio, las cuales se usan para cuantificar la precisi¿on y la confianza en la aproximaci¿on en ese punto, respectivamente. Todas las estimaciones param¿etricas involucradas en la competici¿on, i.E. La recompensa acumulada, la varianza muestral y la densidad muestral en el dominio, se obtienen de un modelo de densidad de probabilidad definido en el espacio conjunto entrada-salida de cada aproximador. De este modelo de densidad conjunta es posible obtener la distribuci¿on de probabilidad de la recompensa acumulada condicionada a una situaci¿on y una acci¿on. De este distribuci¿on podemos obtener una estimaci ¿on del valor esperado de la recompensa acumulada en esa situaci¿on y acci¿on, la cual se usa como el valor inferido por el aproximador, y la varianza de los valores de recompensa acumulada, usada en la funci¿on de relevancia. la densidad muestral en el dominio se obtiene a partir del n¿umero de ejemplos recolectados en el dominio del aproximador y de la distribuci¿on de probabilidad en el dominio obtenida de la marginalizaci¿on de la variable de salida en el modelo de densidad conjunto. El modelo de densidad est¿a representado por un modelo de mezclas gaussianas. Los par¿ametros del modelo se actualizan usando una versi¿on incremental del algoritmo de esperanza-maximizaci¿on que usa la informaci¿on de densidad para producir un olvido basado en la nueva informaci¿on provista en lugar del tiempo, previniendo de esta manera la distorsi¿on que normalmente ocurre cuando se usa un olvido basado en el tiempo para olvidar las entradas pasadas en la aproximaci¿on de una funci¿on no estacionaria.
Datos académicos de la tesis doctoral «Q-learning with a degenerate function approximation«
- Título de la tesis: Q-learning with a degenerate function approximation
- Autor: Alejandro Gabriel Agostini
- Universidad: Politécnica de catalunya
- Fecha de lectura de la tesis: 13/07/2011
Dirección y tribunal
- Director de la tesis
- Enric Celaya Llover
- Tribunal
- Presidente del tribunal: ramón López de mántaras badía
- cecilio Angulo bahon (vocal)
- Luis Montesano del campo (vocal)
- justus Piater (vocal)