Q-learning with a degenerate function approximation

Tesis doctoral de Alejandro Gabriel Agostini

En esta tesis proponemos una estrategia de generalizaciÂ¿on para aprendizaje por refuerzo en entornos continuos que, en lugar de usar un solo aproximador de funciones, prueba mÂ¿ultiples aproximadores de funciones en paralelo, cada uno definido en una regiÂ¿on diferente del dominio, que compiten para proveer la inferencia en un punto dado. El uso de una estrategia competitiva incrementa las oportunidades de tener un buen aproximador entre los que compiten, evitando la restricciÂ¿on de estar supeditado a el desempe Â¿no de un solo aproximador. La estrategia propuesta permite reducir el nÂ¿umero de experiencias necesarias para la convergencia y conseguir una convergencia mÂ¿as estable con respecto a la que se obtiene usando un solo aproximador. La reducciÂ¿on en el nÂ¿umero de experiencias se debe a que, en cada punto evaluado, en general existe un aproximador dentro de los que compiten que generaliza mejor que un aproximador Â¿unico y global. La convergencia mÂ¿as estable se debe a que, si la aproximaciÂ¿on de un aproximador se degrada, Â¿este serÂ¿a respaldado por otro aproximador que normalmente tendrÂ¿a mejor desempeÂ¿no, manteniendo un buen desempeÂ¿no global del sistema. para la selecciÂ¿on del mejor aproximador en un punto el mÂ¿etodo asocia a cada aproximador una funciÂ¿on de relevancia que cuantifica la calidad de su aproximaciÂ¿on en el punto dado. El aproximador con mayor relevancia en el punto es seleccionado para la inferencia. La funciÂ¿on de relevancia se define usando una estimaciÂ¿on paramÂ¿etrica de la varianza muestral y una estimaciÂ¿on paramÂ¿etrica de la densidad muestral en el dominio, las cuales se usan para cuantificar la precisiÂ¿on y la confianza en la aproximaciÂ¿on en ese punto, respectivamente. Todas las estimaciones paramÂ¿etricas involucradas en la competiciÂ¿on, i.E. La recompensa acumulada, la varianza muestral y la densidad muestral en el dominio, se obtienen de un modelo de densidad de probabilidad definido en el espacio conjunto entrada-salida de cada aproximador. De este modelo de densidad conjunta es posible obtener la distribuciÂ¿on de probabilidad de la recompensa acumulada condicionada a una situaciÂ¿on y una acciÂ¿on. De este distribuciÂ¿on podemos obtener una estimaci Â¿on del valor esperado de la recompensa acumulada en esa situaciÂ¿on y acciÂ¿on, la cual se usa como el valor inferido por el aproximador, y la varianza de los valores de recompensa acumulada, usada en la funciÂ¿on de relevancia. la densidad muestral en el dominio se obtiene a partir del nÂ¿umero de ejemplos recolectados en el dominio del aproximador y de la distribuciÂ¿on de probabilidad en el dominio obtenida de la marginalizaciÂ¿on de la variable de salida en el modelo de densidad conjunto. El modelo de densidad estÂ¿a representado por un modelo de mezclas gaussianas. Los parÂ¿ametros del modelo se actualizan usando una versiÂ¿on incremental del algoritmo de esperanza-maximizaciÂ¿on que usa la informaciÂ¿on de densidad para producir un olvido basado en la nueva informaciÂ¿on provista en lugar del tiempo, previniendo de esta manera la distorsiÂ¿on que normalmente ocurre cuando se usa un olvido basado en el tiempo para olvidar las entradas pasadas en la aproximaciÂ¿on de una funciÂ¿on no estacionaria.

Datos académicos de la tesis doctoral «Q-learning with a degenerate function approximation«

Título de la tesis: Q-learning with a degenerate function approximation
Autor: Alejandro Gabriel Agostini
Universidad: Politécnica de catalunya
Fecha de lectura de la tesis: 13/07/2011

Dirección y tribunal

Director de la tesis
- Enric Celaya Llover
Tribunal
- Presidente del tribunal: ramón López de mántaras badía
- cecilio Angulo bahon (vocal)
- Luis Montesano del campo (vocal)
- justus Piater (vocal)

Categorías

Tesis doctoral de Alejandro Gabriel Agostini

Datos académicos de la tesis doctoral «Q-learning with a degenerate function approximation«

Dirección y tribunal

Tesis relacionadas o que tambien te pueden interesar

Deja un comentario Cancelar respuesta