Methods and resources for sentiment analysis in multilingual documents of different text types

Tesis doctoral de Alexandra Balahur Dobrescu

La presente tesis doctoral se ocupa de las cuestiones y los desafíos en el desarrollo de métodos y recursos para la tarea del pln denominada análisis de sentimientos. Definido de forma general, el objetivo de esta tarea es la detección automática de los sentimientos expresados en textos (normalmente por una fuente, sobre un «objeto», que puede ser una persona, un evento, un producto, una organización etc.) Y su clasificación según la polaridad/orientación que tienen (normalmente positiva, negativa o neutra, aunque distintos autores han propuesto escalas más finas de sentimientos, incluyendo por ejemplo las clases muy positivo o muy negativo). la investigación en este campo, la minería de opiniones (análisis de sentimientos), ha demostrado que el análisis de los sentimientos es un problema difícil, que se tiene que abordar desde diferentes perspectivas y en diferentes niveles, dependiendo de una serie de factores. Estos factores incluyen: nivel de de interés (general o específico, dependiendo de si la opinión general sobre el objeto en cuestión es suficiente o se necesita conocimiento detallado de los sentimientos expresados sobre distintos componentes del objeto), la fórmula de consulta («nokia e65″/ «Â¿por qué la gente compra el nokia e65?»), El tipo de texto (revisión en un foro/blog/diálogo/artículo de periódico), y la forma de expresar la opinión – directamente (mediante declaraciones opinión, por ejemplo, «Â¡me parece que este producto es maravilloso!» O «Â¡esta es una iniciativa brillante!»), De forma indirecta (utilizando vocabulario relacionado con la expresión del afecto, por ejemplo, «me encantan las fotos tomadas con esta cámara!» O «personalmente, ¡estoy conmocionado por cómo se puede proponer una ley así!») O implícitamente (con adjetivos que expresan una evaluación, cuyo objeto se sobrentiende, por ejemplo, «es ligero como una pluma y cabe perfectamente en mi bolsillo» o presentando una situación factual de la que se puede inferir, utilizando conocimiento común, una emoción positiva o negativa, por ejemplo «se rompió en dos días.»). Otros factores que hacen la tarea de minería de sentimientos difícil es la aplicación final y el tipo de texto que se utiliza (reseñas, que contienen solo opiniones sobre un producto, escritas por una solo fuente, en comparación con blogs o debates, que tienen una estructura de dialogo, en el que se expresan opiniones sobre distintos objetos, por distintas fuentes). Finalmente, para las aplicaciones finales, el análisis de sentimientos no es la primera ni la última tarea que se debe realizar. Para extraer el sentimiento de textos, primero es necesario recuperar un conjunto de documentos relevantes. El resultado del procesamiento de un texto con un sistema de análisis de sentimientos puede tener mucha información redundante e incluso puede no resolver totalmente el problema, debido a la gran cantidad de datos existentes. los sistemas implementados para la tarea de análisis de sentimientos se basan en reglas, bolsas de palabras, utilizando un léxico de palabras que tienen una orientación del sentimiento (positivo o negativo), métodos estadísticos o aprendizaje automático. analizando los sistemas existentes, hemos identificado los siguientes problemas: – la tarea de análisis de sentimientos y los conceptos relacionados no son definidos de forma única en los diferentes trabajos de investigación. Por tanto, no está claro siempre si los distintos investigadores que trabajan en el análisis de sentimientos pueden comparar el rendimiento de sus sistemas, ya que los textos sobre los que evalúan pueden tener diferentes elementos anotados. – la tarea de análisis de sentimientos se resuelve de la misma manera, independientemente del tipo de texto que se procesa y del objetivo de la aplicación final. – no existen recursos anotados para la tarea de análisis de sentimientos en todos los géneros textuales. – no existen léxicos de palabras que expresen sentimientos para otros idiomas distintos al inglés. – la mayoría de sistemas trabajan a nivel léxico, utilizando reglas, léxicos, métodos estadísticos o aprendizaje automático. La investigación que se ha hecho hasta ahora no toma en cuenta otros niveles de análisis, como el sintáctico o semántico. Por tanto, el asegurar que la fuente de la opinión expresada es la requerida o sobre qué objeto se expresa la opinión en un texto son aspectos que no se toman en consideración. Estos aspectos pueden tener un alto impacto sobre el rendimiento y la utilidad de los sistemas de análisis de opiniones. – la mayor parte de la investigación no distingue sobre los distintos componentes de un texto, en especial sobre el autor, el texto y el lector. La tarea de análisis de sentimientos puede tener diferentes objetivos, dependiendo de la perspectiva que se requiere analizar (por ejemplo, si el autor tiene preferencia sobre un cierto objeto descrito, si el texto contiene información que es buena o mala en sí, si el lector confía en la fuente de la información). – las tareas tradicionales (búsqueda de información, búsqueda de respuestas, resúmenes automáticos) se enfrentan con problemas adicionales en el caso de que la información buscada o resumida es de tipo opinión, dadas por las características del lenguaje afectivo. Por tanto, para poder adecuar los sistemas de este tipo para tratar información que contiene expresiones de afecto, las peculiaridades de este lenguaje tienen que ser estudiadas y se tienen que proponer métodos adecuados para resolver los problemas encontrados de forma eficaz. el objetivo de nuestro trabajo ha sido crear, explotar y evaluar métodos y recursos tanto nuevos como consagrados para la detección y posterior clasificación de acuerdo a su polaridad (positiva / negativa/ neutro) de los sentimientos expresados en textos. en concreto, el primer objetivo es desarrollar técnicas adecuadas para la detección y clasificación automática de los sentimientos expresados de forma directa, indirecta o implícita en los textos de diferentes tipos (reseñas, artículos de periódicos, diálogos/debates y blogs) en diferentes idiomas. El segundo objetivo es aplicar los métodos de análisis de sentimientos que se proponen en el contexto o conjuntamente con otras tareas de pln (búsqueda de respuestas y resúmenes automáticos) y proponer técnicas adecuadas para hacer frente a las cuestiones planteadas en estas tareas por las peculiaridades de la expresión del afecto. en concreto, nos centramos en: – definir la tarea y conceptos generales relacionados, a partir del estudio de las definiciones existentes en la literatura y la clarificación de las inconsistencias detectadas; – proponer y evaluar métodos para definir y abordar el análisis de los sentimientos de diversos géneros textuales en diferentes idiomas; – redefinir la tarea y proponer métodos para anotar corpus específicos para el análisis de sentimientos en para un tipo de texto en diferentes idiomas, en el caso de que la tarea de análisis de sentimientos no hubiera sido claramente definida para el género textual en cuestión y/o ningún corpus estuviera disponible para el mismo. Estos recursos están disponibles al público para el uso de la comunidad científica; – aplicación de técnicas de minería de opinión en el contexto de los sistemas «end-to-end» y también en conjunto con otras tareas del pln. Para ello, nos hemos concentrado en realizar análisis de emociones en las tareas de búsqueda de respuesta y resumen automático; – llevar a cabo experimentos con sistemas de búsqueda de respuesta y sistemas de resúmenes automáticos, diseñados para hacer frente a datos factuales solamente; – proponer y evaluar un nuevo marco para lo que llamamos «búsqueda de respuestas a preguntas de opinión» (en inglés – opinion question answering) y los nuevos métodos para «elaborar resúmenes de opiniones de forma automática» (en inglés – opinion summarization), tras realizar un conjunto de experimentos que mostraron que los sistemas de búsqueda de respuestas y de resumen automático sobre textos presentando hechos no funcionaban correctamente para analizar textos que contenían opiniones; – presentación de un método general para la detección de la emoción expresada de manera implícita en texto. En primer lugar, presentamos el método para construir un léxico de términos que en sí mismos no contienen la emoción, pero que disparan la emoción en un lector. Posteriormente, se propuso un método para resumir textos a partir del análisis de los sentimientos expresados basado en claves lingí¼ísticas, así como se propuso y evaluó un método para representar el texto como las cadenas de acción. La emoción provocada por la situación que se presenta en el texto se juzga posteriormente en base a conocimiento de sentido común sobre el efecto emocional de cada acción en la cadena; – la evaluación de nuestros enfoques en las competiciones internacionales, a fin de comparar nuestros enfoques con los demás y validarlos. con el fin de alcanzar los objetivos propuestos, el trabajo que se presenta ha sido estructurado en torno a responder a cinco preguntas de investigación. Cada uno de los capítulos de esta tesis presenta métodos y evaluaciones hechas con el fin de responder a estas preguntas.

 

Datos académicos de la tesis doctoral «Methods and resources for sentiment analysis in multilingual documents of different text types«

  • Título de la tesis:  Methods and resources for sentiment analysis in multilingual documents of different text types
  • Autor:  Alexandra Balahur Dobrescu
  • Universidad:  Alicante
  • Fecha de lectura de la tesis:  13/06/2011

 

Dirección y tribunal

  • Director de la tesis
    • Juan Andres Montoyo Guijarro
  • Tribunal
    • Presidente del tribunal: manuel Palomar sanz
    • véronique Hoste (vocal)
    • horacio Rodríguez hontoria (vocal)
    • dan Tufis (vocal)

 

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll al inicio