New compression codes for text databases

Tesis doctoral de Antonio Fariña Martinez

Las bases de datos textuales están creciendo en los últimos años debido a la proliferación de las biliotecas digitales, bases de datos documentales, y sobre todo por el gran crecimiento continuado que la web está manteniendo. la comresión surge como una solución ideal que permite reducir espacio de almacenamiento y las operaciones de e/s, con el consiguiente beneficio para la transmisión de información a través de una red. si bien la compresión nace en la primera parte del siglo xx, en la pasada décda aparecen nuevas técnicas de compresión basadas en huffman, que usan las palabrad con los símbolos a comprimir. Estas nuevas técnicas no sólo mejoran la capacidad de compresión de otros métodos muy conocidos (p.Ej: ziv-lempel), sino que además permiten realizar búsquedas dentro del texto comprimido, sin necesidad de descomprimirlo, de forma mucho más rápida que cuando dichas búsquedas se realizan sobre el texto plano. siguiendo con la idea de la compresión basada en palabras, en esta tesis se desarrollan cuatro nuevas técnicas de compresión que dan comienzo a una nueva familia de compresores basados en la utilización de códigos densos. de estas cuatro técnicas, dos son semiestáticas y dos son dinámicas. Sus nombres son: end-tagged dense code, (s,c)-dense code, dynamic end-tagged dense code y dynamic (s,c)-dense code. Además también se ha desarrollado, por primera vez, un compresor dinámico orientado a bytes y basado en palabras, que usa huffman como esquema de codificación. los resultados experimentales obtenidos al comparar nuestros compresores contra corpus reales han demostrado que estos suponen una aportación relevante en el campo de la compresión, tanto para los sistemas orientados a text retrieval, como en sistemas orientados a la transmisión de datos, ya que nuestros compresores comprimen más y más eficientemente que muchos de los compresores actualmente en uso (gzip, compress, etc).

 

Datos académicos de la tesis doctoral «New compression codes for text databases«

  • Título de la tesis:  New compression codes for text databases
  • Autor:  Antonio Fariña Martinez
  • Universidad:  A coruña
  • Fecha de lectura de la tesis:  28/04/2005

 

Dirección y tribunal

  • Director de la tesis
    • Nieves Rodriguez Brisaboa
  • Tribunal
    • Presidente del tribunal: Barja pérez José Mª
    • josep Díaz cort (vocal)
    • isidro Ramos salavert (vocal)
    • nivio Ziviani (vocal)

 

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll al inicio