Integración de bases de datos léxicas y colecciones de entrenamiento en la categorización automática de documentos.

Tesis doctoral de José María Gómez Hidalgo

Con la creciente cantidad de información disponible en formato electrónico en la moderna sociedad de la información, es importante proporcionar a los usuarios medios efectivos para evitar la sobrecarga de información.En muchos entornos (internet,bibliotecas, empresas y muchos más), la información sigue estando disponible mayoritariamente en forma de texto.Por tanto,la efectividad en diversas tareas de clasificación de texto, como la recuperación y filtrado de información, y otras , es crítica para el éxito en la educación y los negocios, e incluso en las aficiones o los viajes. la categorización automática de texto (cat) la asignación automática de documentos a clase predefinidas juega un papel clave en este contexto de acceso a la información.La cat se utiliza para ayudar a los catalogadores(o para reemplazarles)en la tarea de clasificar apropiadamente libros en bibliotecas, páginas web en directorios, o para proporcionar una estructura de directorio a la información disponible en los portales e intranets corporativas. En último términos, los usuarios de las bibliotecas y de internet, o los clientes y los empleados , hacen uso de estos vocabularios controlados y estructuras de directorio para lograr un acceso más efectivo a la información disponible en dichos entornos. en la actualidad, existe un modelo consolidado para la construcción de sistemas de cat.El modelo consiste en la utilización de técnicas de recuperación de la información y del aprendizaje automático para representar los documentos manualmente clasificados (la colección de entrenamiento).Especialmente en los entornos con categorías temáticas , este modelo se ha demostrado tan efectivo como el uso de catalogadores humanos expertos, siempre que se disponga de suficientes documentos de entrenamiento.Sin embargo , aún hay oportunidades para mejorar su efectividad, debido a varios problemas que incluyen la escasez de datos, la dimensionalidad

 

Datos académicos de la tesis doctoral «Integración de bases de datos léxicas y colecciones de entrenamiento en la categorización automática de documentos.«

  • Título de la tesis:  Integración de bases de datos léxicas y colecciones de entrenamiento en la categorización automática de documentos.
  • Autor:  José María Gómez Hidalgo
  • Universidad:  Complutense de Madrid
  • Fecha de lectura de la tesis:  29/03/2005

 

Dirección y tribunal

  • Director de la tesis
    • Buenaga Rodríguez Manuel De
  • Tribunal
    • Presidente del tribunal: Antonio ramón Vaquero sánchez
    • Manuel Palomar sanz (vocal)
    • felisa Verdejo mariño (vocal)
    • Ana García serrano (vocal)

 

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll al inicio