Tesis doctoral de Yassine Benajiba
En esta tesis doctoral se describen las investigaciones realizadas con el objetivo de determinar las mejores técnicas para construir un reconocedor de entidades nombradas en árabe. Tal sistema tendría la habilidad de identificar y clasificar las entidades nombradas que se encuentran en un texto árabe de dominio abierto. la tarea de reconocimiento de entidades nombradas (ren) ayuda a otras tareas de procesamiento del lenguaje natural (por ejemplo, la recuperación de información, la búsqueda de respuestas, la traducción automática, etc.) A lograr mejores resultados gracias al enriquecimiento que añade al texto. En la literatura existen diversos trabajos que investigan la tarea de ren para un idioma especifico o desde una perspectiva independiente del lenguaje. Sin embargo, hasta el momento, se han publicado muy pocos trabajos que estudien dicha tarea para el árabe. el árabe tiene una ortografía especial y una morfología compleja, estos aspectos aportan nuevos desafíos para la investigación en la tarea de ren. Una investigación completa del ren para el árabe no solo aportaría las técnicas necesarias para conseguir un alto rendimiento, sino que también proporcionaría un análisis de los errores y una discusión sobre los resultados que benefician a la comunidad de investigadores del ren. El objetivo principal de esta tesis es satisfacer esa necesidad. Para ello hemos: 1. Elaborado un estudio de los diferentes aspectos del árabe relacionados con dicha tarea; 2. Analizado el estado del arte del ren; 3. Llevado a cabo una comparativa de los resultados obtenidos por diferentes técnicas de aprendizaje automático; 4. Desarrollado un método basado en la combinación de diferentes clasificadores, donde cada clasificador trata con una sola clase de entidades nombradas y emplea el conjunto de características y la técnica de aprendizaje automático más adecuados para la clase de entidades nombradas en cuestión. nuestros experimentos han sido evaluados sobre nueve conjuntos de test de diferentes tipos (artículos de periódico, noticias transcritas, documentos del arabic treebank y weblogs). Nuestros resultados muestran que la técnica basada en varios clasificadores ayuda a obtener los mejores resultados en todos estos tipos de documentos.
Datos académicos de la tesis doctoral «Arabic named entity recognition«
- Título de la tesis: Arabic named entity recognition
- Autor: Yassine Benajiba
- Universidad: Politécnica de Valencia
- Fecha de lectura de la tesis: 19/05/2009
Dirección y tribunal
- Director de la tesis
- Paolo Rosso
- Tribunal
- Presidente del tribunal: felisa Verdejo maillo
- mona Diab talaat (vocal)
- imed Zitouni (vocal)
- horacio Rodríguez hontoria (vocal)