Análisis, diseño y aplicación de modelos de diálogo flexibles, contextuales y dinámicos basados en redes bayesianas

Tesis doctoral de Fernando Fernández Martínez

El habla es el medio de comunicación natural entre personas. Como evolución de todo lo aprendido durante prácticamente medio siglo de investigación en tecnología del habla, ha llegado el momento de diseñar sistemas que hagan uso de la capacidad comunicativa del habla, aunque esta vez con máquinas como interlocutoras. En ese sentido creemos que es fundamental incorporar al diseño de tales sistemas las ideas recogidas bajo el concepto de «inteligencia ambiental», ofreciendo así, interfaces inteligentes que sean capaces de negociar siguiendo un diálogo natural para conseguir los objetivos que sean requeridos por los usuarios. los diálogos humano-máquina u hombre-máquina siempre requieren de un sistema de diálogo. Un sistema de diálogo puede verse como un programa o aplicación informática que permite la interacción y la comunicación entre la máquina y el humano con la mayor naturalidad posible. Además de los típicos módulos de reconocimiento y conversión de texto a voz, entre otros, todos estos sistemas presentan un elemento en común: un módulo central o núcleo denominado gestor de diálogo (gd) responsable de una doble tarea fundamental: interpretar la intención del usuario y decidir cómo continuará el diálogo. para alcanzar con éxito el objetivo de ofrecer al usuario una respuesta lo más próxima posible a una interacción humano-humano, consideramos que el diseño de un sistema de diálogo debe abordarse tanto desde una perspectiva teórica como práctica. De este modo, es preciso prestar atención no sólo al «modelado del diálogo» (i.E. Conjunto de teorías generales o modelos que proporcionan la base necesaria para la «gestión de diálogo»), sino también a la necesaria integración de esos modelos junto con el conocimiento específico de la tarea y el dominio de aplicación (i.E. Modelos de tarea y dominio) para poder desarrollar procedimientos que soporten la interacción hombre-máquina en un diálogo colaborativo, cooperativo, en definitiva, útil. Fruto de este estudio, a continuación presentaremos las principales aportaciones de la presente tesis doctoral: 1) nuevas soluciones de diálogo basadas en redes bayesianas (bayesian networks, bns). como alternativa a los sistemas de diálogo clásicos (autómatas de estados finitos o fsms, sistemas basados en scripts o planes de diálogo, etc.), Se han explorado nuevos esquemas de diálogo que permiten una mayor flexibilidad y naturalidad mediante una definición más conveniente del diálogo como la interacción con un sistema de inferencia. Las nuevas estrategias permiten avanzar en varios aspectos fundamentales: 1.A) el motor de inferencia basado en bns permite una mejor identificación de los objetivos de diálogo del usuario (i.E. Actividades que puede realizar el sistema) a partir de los conceptos (i.E. Información semántica) facilitados por éste y de forma coherente con el contexto de diálogo actual. El motor de inferencia puede obtenerse a partir de tales conceptos lo que permite su diseño con el mayor grado posible de independencia del idioma empleado. Además, las bns permiten llevar a cabo un análisis de congruencia entre los objetivos que el sistema cree que el usuario ha solicitado y el conjunto de datos recogidos durante la interacción. Gracias a este análisis el sistema puede decidir el flujo de la interacción y reaccionar conforme a la lógica del dominio de aplicación (e.G. Realizando las tareas requeridas o solicitando al usuario la información necesaria para ello). La idea principal es detectar de forma automática qué conceptos son necesarios (estén disponibles o no), erróneos u opcionales en relación a los objetivos inferidos. De este modo el diálogo podría dirigirse hacia la producción de mensajes solicitando los ítems que sean precisos, aclarando los erróneos y obviando los opcionales. Esto permite evitar diálogos innecesariamente largos y facilita la consecución de los objetivos de forma ágil y eficaz. 1.B) como alternativa a las soluciones tradicionales basadas en varios modelos de bn, uno por cada objetivo de información, se propone replantear el problema a partir de un modelo único para todos los conceptos y objetivos de información definidos en el dominio de aplicación. Para ello se ha definido un nuevo algoritmo de «fusión» de los modelos específicos para cada objetivo. Contar con modelos específicos para cada uno de los objetivos de diálogo resulta una decisión especialmente inapropiada ya que obliga a asumir una hipótesis de independencia entre los diferentes objetivos. En diálogo, dicho requisito se incumple muy frecuentemente en la medida en que una intervención pueda corresponder no sólo a un objetivo en concreto sino a múltiples objetivos (e.G. El usuario decide simultáneamente llevar a cabo un cierto conjunto de acciones). Por este motivo consideramos que dicha simplificación va en contra de nuestros intereses en cuanto a eficiencia y flexibilidad del diálogo. Gracias a esta estrategia basada en un modelo único, el resultado del análisis de congruencia es también único y se obtiene considerando un contexto global, común a todos los objetivos, evitando así posibles resultados dispares para un mismo dato o concepto al analizar cada objetivo por separado. 2) respuesta flexible. supone probablemente la gran diferencia y a su vez la gran ventaja de las soluciones propuestas respecto a las convencionales, es decir, no existe ninguna secuencia de datos ni de objetivos prefijada a la que tenga que ceñirse el usuario. Así, las bns nos permiten un modelado del diálogo basado en iniciativa mixta en el que el usuario puede elegir el conjunto de objetivos que quiere que el sistema le ofrezca. Esta flexibilidad es doble ya que no sólo se permite al usuario decidir los objetivos al comienzo de la interacción, sino que también se le permite saltar a otros objetivos sin haber completado el anterior. Por otra parte, el usuario puede responder con más datos de los solicitados en la pregunta o incluso responder a un dato no preguntado de los pertenecientes a un objetivo decidido por el sistema. Con objeto de evitar giros bruscos en la interpretación realizada (los cuales podrían producir desorientación o desconcierto en el usuario) el gd debe integrar en el proceso de decisión acerca de cómo continuar el diálogo toda la información disponible. 3) respuesta contextual. habitualmente los sistemas deben hacer frente a situaciones complicadas en las que el usuario tiende a omitir cierta información, en ocasiones, información que resulta fundamental para el correcto desenlace del diálogo. La solución propuesta permite, a través de un proceso de negociación orquestado en base al procedimiento de inferencia, obtener dicha información. Adicionalmente, esta solución cuenta con la capacidad de recuperar rápidamente la información restante a partir del contexto del diálogo. Para ello, se han diseñado e implementado estrategias de aprovechamiento de la información contextual que mejoran la robustez del sistema de diálogo produciendo respuestas coherentes a partir de, entre otros: las medidas de confianza proporcionadas por los módulos de reconocimiento y comprensión, la historia del diálogo, el estado del sistema, el modelo de tarea (e.G. Un marco semántico con todos los elementos de información necesarios para satisfacer un determinado objetivo de diálogo), el modelo del dominio de aplicación en cuestión (e.G. Información de vuelos) y el modelo de usuario. Gracias a las estrategias diseñadas el sistema es capaz de dar el tratamiento adecuado a fenómenos como: «anáforas» (o elementos que hacen referencia a otras partes del diálogo aparecidas con antelación), «elipsis» (u omisión de ciertos elementos vitales para el diálogo pero que pueden deducirse a partir del contexto), y «deíxis» o referencias deícticas (aquellas cuyo significado depende del contexto, sobre todo del contexto físico, de los elementos extralingí¼ísticos e.G. «Reproduce la otra», la otra canción por ejemplo, la anterior). 4) respuesta dinámica. la robustez de los sistemas pasa en buena parte por que la respuesta de estos sea dinámica. Con ese propósito se han previsto los siguientes mecanismos de adaptación: 4.A) el gd es capaz, a partir de la información contextual (e.G. Turno anterior, historia) y la evolución del diálogo, extraer información sobre la expectativa que tiene el sistema acerca de lo que el usuario puede decir. Esta previsión puede emplearse para preparar el sistema con modelos adaptados (e.G. Acústicos, de lenguaje,…Etc.) De tal forma que se incentiven interpretaciones congruentes con las respuestas esperadas. 4.B) como característica dinámica del comportamiento del sistema, se han introducido mecanismos de atenuación que rebajan la relevancia o latencia de los elementos de información almacenados en la historia conforme a la evolución del diálogo. Tras ser almacenados, y debido a la atenuación sufrida tras cada turno de diálogo, estos elementos pueden evolucionar hasta alcanzar una relevancia por debajo de un cierto umbral predeterminado, motivo por el cual desaparecen definitivamente de la historia de diálogo. Gracias a este mecanismo es posible mantener la historia permanente actualizada en todo momento otorgando mayor peso a la información más reciente frente a la más antigua. Otra utilidad inmediata de este mecanismo es que de forma automática, sin necesidad de ningún proceso de aclaración, podrían desaparecer del diálogo tanto las observaciones erróneas como espurias simplemente por el hecho de que éstas no vuelvan a ser referenciadas en adelante por el usuario. 5) definición de una metodología de diseño. finalmente, la presente tesis profundiza en el análisis y aplicación de mecanismos y técnicas eficientes que minimicen el esfuerzo invertido para generar un nuevo sistema de diálogo (cambio de contexto semántico). Para ello se propone el uso de estrategias que permiten caracterizar el dominio de aplicación del sistema y que facilitan el aprendizaje automático de los modelos de diálogo. Gracias a esta metodología es posible obtener un modelo de diálogo completo de la aplicación partiendo del análisis de situaciones reales etiquetadas y de una descripción del modelo de datos de la aplicación junto con una descripción semántica de la misma (ontología). todas estas aportaciones han sido finalmente evaluadas encontrándose el suficiente apoyo experimental como para demostrar su relevancia.

 

Datos académicos de la tesis doctoral «Análisis, diseño y aplicación de modelos de diálogo flexibles, contextuales y dinámicos basados en redes bayesianas«

  • Título de la tesis:  Análisis, diseño y aplicación de modelos de diálogo flexibles, contextuales y dinámicos basados en redes bayesianas
  • Autor:  Fernando Fernández Martínez
  • Universidad:  Politécnica de Madrid
  • Fecha de lectura de la tesis:  03/03/2009

 

Dirección y tribunal

  • Director de la tesis
    • Javier Ferreiros López
  • Tribunal
    • Presidente del tribunal: José manuel Pardo muñoz
    • eduardo Lleida solano (vocal)
    • alessandro Vinciarelli (vocal)
    • ascension Gallardo antolin (vocal)

 

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll al inicio