Tesis doctoral de Francisco De Asís Gómez Rodríguez
La visión artificial engloba una serie de técnicas cuyo objetivo último es que una máquina ¿entienda¿ la información visual, que pueda ¿percibir¿. Los términos ¿entender¿ y ¿percibir¿ están íntimamente ligados a los conceptos de consciencia e inteligencia, es por ello que la visión por computador no deja de ser un subcampo de la inteligencia artificial. Esta relación ha hecho que desde sus comienzos los estudiosos de la visión artificial hayan utilizado la naturaleza como ejemplo, imitándola en lo posible. Sin embargo, desde el principio nos encontramos con grandes diferencias entre los sistemas naturales y artificiales, siendo una de las más significativas cómo se representa la información visual en cada uno de estos sistemas. En los sistemas artificiales tradicionales la información visual viene dada por una secuencia de fotogramas que representan un muestreo, con un periodo fijo, de la realidad; en los sistemas naturales no es fácil determinar cómo es dicha representación de la realidad, pero parece claro que no puede estar basada en fotogramas, más bien debe fluir de forma continua. Desde hace unos años la comunidad científica ha abordado mecanismos alternativos de representación visual (tobi delbruck et al. 2010). Aunque esto en sí mismo puede no parecer importante, lo cierto es que abre nuevas alternativas para abordar los problemas de la visión artificial y resolverlos de forma, cuando menos, diferente; por no decir de forma más eficaz. las nuevas retinas artificiales con salida pulsante son un ejemplo de sistemas que pretenden imitar a la naturaleza en lo que se refiere a su funcionamiento y a la representación de la información visual. Este trabajo se apoya en estas retinas para buscar lo mismo que la visión artificial: que una máquina ¿entienda¿ qué está viendo. Evidentemente nuestra pretensión con este trabajo no es resolver el paradigma de la inteligencia y la consciencia, aquí estudiaremos y buscaremos nuevos mecanismos para hacer lo mismo que se suele hacer con imágenes tipo fotogramas pero con representación pulsante, comprobando qué posibilidades tienen estas técnicas y qué ventajas presentan. es importante indicar desde el primer momento que aunque los resultados que perseguimos con esta tesis son los clásicos de la visión artificial, los métodos que se utilizan en este trabajo no son una mera trasposición de los utilizados en dicha disciplina. Dos de los objetivos clásicos en la visión artificial son el reconocimiento de objetos o patrones y el seguimiento de los mismos. Es evidente que estos objetivos son compartidos por el presente trabajo, pero, a diferencia de muchos otros, aquí se va a tratar desde el primer momento con una representación pulsante de la información, la cual vamos a procesar con un hardware específico, usando nuevos métodos, sin ser transformada en fotogramas en ningún momento. Como es natural para visualizar los resultados y comprobarlos se hará uso de los fotogramas en ciertas etapas, sobre todo en las finales, pero esto es sólo a modo de comprobación. por tanto, en esta tesis se presenta un conjunto de celdas neuromórficas para el procesamiento de información visual procedente de retinas artificiales. Se propone además una estructura u organización jerárquica o en cascada del procesamiento. Y se pretende aportar ideas, desarrollos e implementaciones que permitan dar un nuevo paso en la construcción de sistemas neuromórficos, con el fin de arrojar un poco de luz a la pregunta de si es posible construir sistemas artificiales que se asemejen en prestaciones, consumo energético y complejidad a los sistemas neuronales biológicos. 1.1. Motivaciones las motivaciones para la realización de este trabajo se pueden dividir en tres tipos, las científicas, las personales y las relacionadas con los proyectos en los que está o ha estado implicado el autor del presente trabajo dentro del grupo de investigación de robótica y tecnología de computadores de la universidad de sevilla (rtc-us) . Evidentemente las motivaciones científicas son las importantes y las que en última instancia se fusionan con las otras dos, siendo en su conjunto lo mismo. la principal motivación científica para realizar esta tesis es buscar sistemas de visión artificial cada vez más perfectos, explorando nuevos mecanismos. En este sentido desde hace unos años se dispone, a través de otros grupos de investigación internacionales socios en diversos proyectos, de retinas artificiales pulsantes. Sin embargo, el procesado de dicha información apenas ha sido desarrollado y tratado, es precisamente esta carencia la que ha llevado a la realización del presente trabajo. en cuanto a las motivaciones personales, analizando la trayectoria profesional del autor se percibe las inquietudes por el diseño y construcción de sistemas de visión artificial. Como proyecto final de carrera presentó un sistema para la detección de obstáculos en sillas de ruedas usando cámaras ccd (en 1999), que le sirvió para trabajar como becario en el departamento de ingeniería de sistemas y automática de la universidad de sevilla en el grupo de investigación visión, robótica y control (desde 1999 a 2003), donde estuvo involucrado en diversos proyectos (nacionales y europeos) cuyo objetivo principal era la detección y seguimiento de incendios forestales usando cámaras en el espectro visible e infrarrojo. Posteriormente se unió al grupo robótica y tecnología de computadores de la universidad de sevilla (en 2003) donde, hasta la fecha, realiza su labor investigadora en diversos proyectos relacionados con sistemas de visión neuromórficos. en cuanto a las motivaciones derivadas de las necesidades de los proyectos del grupo de investigación, a continuación se muestran los proyectos en los que ha participado como investigador desde el año 2003: ¿ proyecto europeo caviar: convolution aer vision architecture for real-time (2002 -2006). El objetivo de este proyecto fue el desarrollo de chips y placas electrónicas para demostrar la viabilidad de un sistema de visión basado en aer, desde el sensado, pasando por el procesado, hasta los actuadores. ¿ proyecto nacional victor: visión por computador en tiempo real (2001-2004). En este proyecto se diseña la conexión de un bus aer a un computador digital mediante interfaz pci. ¿ proyecto nacional samanta: sistema de visión multi-chip address-event-representation para plataforma robótica (2004-2006). El objetivo de este proyecto para el grupo rtc fue el diseño e implementación de módulos de interconexión aer con sistemas robóticos digitales. ¿ proyecto nacional samanta ii: sistema de visión multi-chip address-event-representation para plataforma robótica ii (2006-2009) y proyecto andaluz brain system (2007-2010). En estos proyectos se continuó la labor realizada en samanta. ¿ proyecto nacional vulcano: visión ultra-rápida por eventos y sin fotogramas. Aplicación a automoción y robótica cognitiva antropomorfa (2010-2012). El objetivo de este proyecto es dar los pasos necesarios para desarrollar un conjunto de demostradores, validando las técnicas basadas en aer en el sensado y procesado de visión y actuación mecánica para aplicaciones interesantes en el sector industrial. cabe destacar que en todos estos proyectos ha colaborado el instituto de microelectrónica de sevilla del consejo superior de investigaciones científicas (imse-csic), y en el proyecto europeo caviar participó, entre otros, el institute of neuro informatics de zurich (ini-etzh). en el presente trabajo, se hace uso de dos desarrollos realizados bajo el amparo de estos proyectos, la plataforma llamada usb-aer board inteface, desarrollada por el rtc-us, que será usada como plataforma hardware en las implementaciones que se aportan. También se hace uso de la retina artificial desarrolla por el ini-etzh llamada retdiff128. De ambos sistemas pueden encontrarse descripciones más adelante. por lo tanto podemos afirmar que la presente tesis es el fruto de años de trabajo en los sistemas de visión artificial, tanto desde el enfoque clásico basado en el uso de sensores ccd y computadores, como desde un enfoque neuromórfico con el uso de hardware específico. Además podemos concluir que si bien las necesidades de los proyectos de investigación en los que el doctorando se ha involucrado han moldeado este trabajo, la idea primigenia de contribuir al desarrollo de sistemas de visión artificial constituye el núcleo del mismo. 1.2. Objetivos como se ha indicado anteriormente, el objetivo principal de la tesis es el abordar nuevos sistemas de procesado visual basados en la representación pulsante de las imágenes. Se pretende estudiar diferentes posibilidades sin perder la perspectiva última que nos ofrece la naturaleza en los sistemas neuronales biológicos. También es objetivo de esta tesis implementar y probar en la realidad los nuevos sistemas que se proponen. Para realizar las pruebas pertinentes y que además los nuevos métodos que perseguimos sean aprovechables en el futuro desde un punto de vista industrial, éstos deben poderse implementar de forma sencilla con los elementos que disponemos actualmente en el mercado. Es por este motivo que se ha optado por utilizar una plataforma hardware basada en fpga . Por otra parte el procesado visual puede ser muy amplio, es por ello que este trabajo se centra en dos paradigmas clásicos en la visión artificial, el seguimiento y localización de objetos y el reconocimiento de patrones, pero siempre con un procesado pulsante directo. En síntesis, podemos considerar que el objetivo principal de este trabajo es la obtención de nuevos mecanismos de procesado de la visión basado en pulsos para el seguimiento de objetos y reconocimiento de patrones, y la implementación de los mismos con sus correspondientes pruebas. conviene definir de manera clara y concisa los objetivos que persigue esta tesis. Se agrupan en generales y específicos. objetivos generales indudablemente esta tesis se puede enmarcar en el amplio campo científico de los sistemas de inteligencia artificial, y dentro de éste en el de los sistemas neuromórficos. Los objetivos generales, por tanto, están encaminados a aportar un poco de luz sobre las posibilidades de los sistemas neuromórficos, y la viabilidad de estos para formar parte de sistemas de más alto nivel en la estructura cognitiva; y son: 1. Explorar la posibilidad de implementación de sistemas de visión artificial neuromórfico 2. Aportar luz a la pregunta de si es posible procesar información que viene codificada en pulsos, ya sea en frecuencia de pulsos o en pulsos temporales precisos. 3. Estudiar la viabilidad de uso de sistemas digitales en la construcción de sistemas neuromórficos, campo patrimonializado por los sistemas basados en electrónica analógica, en los últimos tiempos. 4. Y en un sentido amplio aportar pistas para contestar preguntas sobre las ventajas del uso de eventos en la representación de imágenes; sobre el papel que juegan los eventos en el transporte de la información en la computación; sobre la conveniencia de la codificación en frecuencia de pulsos o en pulsos temporalmente preciso; y sobre la complejidad, adaptabilidad y aprendizaje en redes de neuronas pulsantes. objetivos específicos dado lo amplio e incluso ambicioso de los objetivos generales, conviene fijar unos objetivos más concretos y tangibles con los que acercarse a los primeros: 1. Definir una arquitectura para el procesado de información retino-mórfica, usando una retina artificial concreta, en este caso la desarrollada por el ini y llamada retdiff128. 2. Usar el paradigma neuromórfico, es decir, imitar a la naturaleza en todo lo posible, incluyendo aspectos como el funcionamiento interno y externo; resolviendo los mismos problemas y de la misma forma. 3. Seguir de manera simultánea varios objetos en movimiento ofreciendo las posiciones relativas de los mismos en el plano de ¿imagen¿ del sensor. 4. Obtener parámetros del movimiento de los objetos, tales como velocidad, aceleración etc. 5. Detectar patrones sencillos en la forma de los objetos, tales como orientaciones o formas simple, imitando el funcionamiento y la labor de ciertas neuronas de la corteza visual (detalles sobre el sistema visual pueden ser encontrados más adelante). 6. Diseñar circuitos electrónicos que implementen las funcionalidades antes descritas. 7. Realizar una implementación hardware de los circuitos diseñados con los siguientes requisitos: a. La implementación no debe incluir ningún computador convencional en el núcleo del procesado. b. La implementación debe ser realizable y realista, modular y que permita demostrar empíricamente la viabilidad de la construcción de sistemas neuromórficos. c. La implementación debe poder interactuar con la retina artificial, permitiendo la construcción de un sistema de sensado y procesado completo. 1.3. Estructura de la tesis esta tesis se articula en 8 capítulos: capítulo 1: el presente, dedicado a introducir las motivaciones, los objetivos y la estructura. capítulo 2: dedicado a repasar algunos de los fundamentos de los sistemas neuromórficos, a estudiar el sistema visual, y por último a realizar un repaso del estado de los desarrollos neuromórficos actuales basados en aer. capítulo 3: detalla las celdas propuestas para el seguimiento de objetos, obteniendo la posición de objetos en movimiento y estimando la velocidad de los mismos. capítulo 4: presenta la celda que realiza la detección de patrones visuales en los objetos. capítulo 5: contiene una visión general del sistema propuesto, sus diferentes alternativas y las aplicaciones de cada una de ellas. capítulo 6: describe la implementación hardware de los desarrollos expuestos en los capítulos anteriores, haciendo uso de la plataforma usb-aer. capítulo 7: dedicado a las pruebas y experimentos realizados sobre la implementación hardware del sistema. y por último capítulo 8: relata las aportaciones y las conclusiones a las que se pueden llegar a la vista de este trabajo, así como los trabajos futuros.
Datos académicos de la tesis doctoral «Análisis, diseño e implementacion de sistemas neuromórficos basados en pulsos para el procesado de información de retinas artificiales«
- Título de la tesis: Análisis, diseño e implementacion de sistemas neuromórficos basados en pulsos para el procesado de información de retinas artificiales
- Autor: Francisco De Asís Gómez Rodríguez
- Universidad: Sevilla
- Fecha de lectura de la tesis: 04/07/2011
Dirección y tribunal
- Director de la tesis
- Gabriel Jimenez Moreno
- Tribunal
- Presidente del tribunal: Juan Lopez coronado
- Jorge Luis Falco boudet (vocal)
- Fernando Díaz del rio (vocal)
- anton Civit balcells (vocal)