Una nueva técnica de compresión de textos con soporte de «text retrieval» y su adaptación a lenguas romances

Tesis doctoral de Eva María Lorenzo Iglesias

En el marco de esta tesis se ha desarrollado un nuevo esquema de compresión de especial interés en el campo de las bases de datos textuales. La nueva codificación, denominada codificación densa con post-etiquetado posee las siguientes características: * es un esquema de compresión basado en palabras; es decir, los símbolos a comprimir son palabras y no caracteres. * es una codificación de prefijo libre, lo que garantiza la decodificación inmediata del texto comprimido. * soporta la descompresión de porciones arbitrarias de texto gracias a la incorporación de marcas que permiten distinguir los códigos dentro del texto comprimido. * es posible realizar búsquedas eficientes de palabras de un modo exacto, aproximado o utilizando expresiones regulares, directamente sobre el texto comprimido. * alcanza mejores ratios de compresión que otras técnicas de compresión similares. * los procesos de codificación y decodificación son sencillos y rápidos. se han demostrado analítica y experimentalmente las ventajas de la codificación densa con post-etiquetado en términos de tamaño final del fichero comprimido. los estudios teóricos se han realizado considerando diferentes distribuciones de palabras en el texto, entre las que se incluye la propuesta por la ley de zipf. Para el estudio emprírico se han empleado corpus de textos en inglés de la colección trec-4 y corpus ad hoc de documentos escritos en lenguas romances (en concreto, en castellano, portugués y gallego). una de las conclusiones obtenidas como resultado de los estudios experimentales anteriores es la reducción en la eficiencia de la comprensión y de la recuperación cuando se aplican codificaciones basadas en palabras (como la nueva codificación densa con post-etiquetado) sobre textos romances. El problema es originado por el importante incremento del vocabulario en esas lenguas y el tipo de distribución que caracteriza los textos. Como conse

 

Datos académicos de la tesis doctoral «Una nueva técnica de compresión de textos con soporte de «text retrieval» y su adaptación a lenguas romances«

  • Título de la tesis:  Una nueva técnica de compresión de textos con soporte de «text retrieval» y su adaptación a lenguas romances
  • Autor:  Eva María Lorenzo Iglesias
  • Universidad:  A coruña
  • Fecha de lectura de la tesis:  24/06/2003

 

Dirección y tribunal

  • Director de la tesis
    • Nieves Rodriguez Brisaboa
  • Tribunal
    • Presidente del tribunal: María antonia Martí antonín
    • Fernando Díaz gómez (vocal)
    • Jesús Vegas hernández (vocal)
    • Juan Francisco Galvez galvez (vocal)

 

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll al inicio