Corpus linguísticos estruturados de grandes dimensións: metodoloxíae sistemas de recuperación de información

Tesis doctoral de Francisco Mario Barcala Rodriguez

La reciente evolución de internet ha permitido el acceso a un volumen de información enorme, pero toda esta no resulta útil si no existe una manera precisa de encontrar lo que se necesita en un momento dado. Por eso, casi paralelamente al crecimiento de internet se han ido desarrollando sistemas de recuperación de información (ri) que permitían localizar la información relevante en cada caso, dando lugar a lo que hoy conocemos como buscadores. Pero uno de los principales problemas que presentan estos sistemas radica en que, en general, la información que utilizan está muy poco estructurada, lo que limita en cierto modo sus posibilidades: no se pueden delimitar secciones en los documentos, ni aplicar filtros de búsqueda, etc., Es decir, solo se permite introducir una expresión de búsqueda que se intenta encontrar en toda la base documental. debido a estas carencias, al mismo tiempo también se han ido desarrollando sistemas de ri que requerían que la información estuviera organizada de algún modo particular. Estos sistemas no están diseñados para hacer búsquedas en internet en general, sino que actúan sobre un conjunto más grande o más pequeño de información disponible y ofrecen más oportunidades de búsqueda. estas dos vertientes evolutivas, la de utilizar información desestructurada y la de tenerla organizada, llegaron a la actualidad propiciando la aparición de distintas herramientas de búsqueda. Por un lado, tenemos los buscadores de internet, que permiten localizar documentos que satisfacen una búsqueda concreta y, por la otra, los sistemas que utilizan información estructurada, que cubren aspectos como la obtención de datos de clientes, facturación, control de stock, etc. Finalmente, incluso hai entornos que pueden combinar en diferente grado estas dos vertientes (herramientas de minería de datos, sistemas de predicción, etc.) en este trabajo tratamos un caso particular de los sistemas de ri que utilizan información estructurada: el de los sistemas lingí¼ísticos que trabajan con grandes colecciones de documentos (corpus), lo que enmarca la presente tesis de doctorado dentro de la lingí¼ística computacional y, más concretamente, en la lingí¼ística de corpus. Aunque en este campo también hai un ámplio espectro de posibilidades, nos centramos en aquellos en los que la información que necesitan los usuarios, normalmente lingí¼istas, está relacionada con la frecuencia de ocurrencia de palabras o con la visualización de ejemplos en su contexto. la evolución de estos sistemas ha sido practicamente simultánea al desarrollo de la informática. Desde las primeras herramientas de búsqueda monolíticas que utilizaban colecciones textuales, consideradas ahora de reducidas dimensiones, se ha ido evolucionando gracias al incremento de la capacidad de los ordenadores, hasta los actuales sistemas de consulta a través de la red que manejan corpus de gran tamaño. Nos centramos en estos últimos, analizando las diferentes posibilidades y tecnologías disponibles actualmente para desarrollarlos pero, además, tambien hacemos una propuesta metodológica genérica para la creación de corpus, que son el sustento de datos de estos sistemas de ri. ofrecemos, pues, una visión de conjunto que abarca, tanto la construcción de corpus como su posterior explotación, teniendo siempre en mente la utilización de los estándares más actuales. Además, ilustramos nuestras propuestas genéricas con su aplicación al caso concreto del corpus de referencia do galego actual (corga), desarrollado en el centro ramón piñeiro para a investigación en humanidades, lo que permite aclarar cómo se concretan los conceptos abstractos en un caso práctico.

 

Datos académicos de la tesis doctoral «Corpus linguísticos estruturados de grandes dimensións: metodoloxíae sistemas de recuperación de información«

  • Título de la tesis:  Corpus linguísticos estruturados de grandes dimensións: metodoloxíae sistemas de recuperación de información
  • Autor:  Francisco Mario Barcala Rodriguez
  • Universidad:  A coruña
  • Fecha de lectura de la tesis:  12/02/2010

 

Dirección y tribunal

  • Director de la tesis
    • Manuel Vilares Ferro
  • Tribunal
    • Presidente del tribunal: laurence Danlos
    • sunny Paris (vocal)
    • xulio Sousa fernández (vocal)
    • gaí«l harry Dias (vocal)

 

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll al inicio