Gradient-based reinforcement learning techniques for underwater robotics behavior learning

Tesis doctoral de Andres El-fakdi Sencianes

últimamente, el interés por el desarrollo de aplicaciones con robots submarinos autónomos (auv) ha crecido de forma considerable. Los auvs son atractivos por su tamaño y porque no necesitan un operador humano para su pilotaje. Aún y así, es imposible comparar, en términos de eficiencia y flexibilidad, la habilidad del pilotaje humano con las escasas capacidades operativas que ofrecen los auvs actuales. El uso de auvs para cubrir grandes áreas implica resolver problemas complejos, especialmente si se desea que el robot reaccione en tiempo real a cambios bruscos que pudieran producirse en las condiciones de trabajo. Por estas razones, el desarrollo de sistemas de control autónomo para mejorar estas capacidades se ha convertido en una prioridad. esta tesis trata sobre el problema de la toma de decisiones utilizando auvs. El trabajo presentado se centra en el estudio, diseño y aplicación de comportamientos para auvs utilizando técnicas de aprendizaje por refuerzo (rl). La contribución principal de la tesis consiste en la aplicación de varias técnicas que permiten mejorar la autonomía de los robots submarinos, con el objetivo final de demostrar la viabilidad de estos algoritmos para aprender tareas submarinas de forma autónoma en tiempo real. En rl, el robot intenta maximizar un refuerzo escalar obtenido como consecuencia de su interacción con el entorno. El objetivo es encontrar una política óptima que relaciona todos los estados posibles con las acciones a ejecutar para cada estado que maximizan la suma de refuerzos totales. Así, esta tesis investiga principalmente dos tipologías de algoritmos basados en rl: métodos basados en funciones de valor (vf) y métodos basados en el gradiente (pg). Los resultados experimentales finales muestran al robot submarino ictineu en una tarea autónoma real de seguimiento de cables submarinos. Para llevarla a cabo, se ha diseñado un algoritmo llamado método del actor y el crítico (ac), fruto de la fusión de métodos vf con técnicas de pg.

 

Datos académicos de la tesis doctoral «Gradient-based reinforcement learning techniques for underwater robotics behavior learning«

  • Título de la tesis:  Gradient-based reinforcement learning techniques for underwater robotics behavior learning
  • Autor:  Andres El-fakdi Sencianes
  • Universidad:  Girona
  • Fecha de lectura de la tesis:  03/03/2011

 

Dirección y tribunal

  • Director de la tesis
    • Marc Carreras Pérez
  • Tribunal
    • Presidente del tribunal: pere Ridao rodriguez
    • petar Stefanov kormushev (vocal)
    • massimo Caccia (vocal)
    • cecilio Angulo bahon (vocal)

 

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll al inicio