Base de conocimiento léxico para el euskera: euskal wordnet

Tesis doctoral de Elisabete Pociello Irigoyen

Las bases de conocimiento léxico (bcl) son imprescindibles para avanzar en el estudio de la semántica computacional. En esta tesis se hace una propuesta de una bcl para euskera. Para ello nos hemos basado en una bcl para el inglés -wordnet (miller 1985)-, y hemos creado su equivalente el euskera (euskal wordnet). En esta tesis describimos el proceso que hemos seguido para desarrollar euskal wordnet. Primero, hemos especificado las características que queremos que tenga nuestra bcl. Luego, hemos hecho un estudio comparativo de varios formalismos de bcls, buscando el más adecuado para la bcl del euskera. Así, tras ese estudio, hemos decidido basar nuestra bcl en el formalismo de wordnet y en las bcls que lo han seguido -eurowordnet y the multilingual central repository (mcr). En cuanto a la metodología adoptada en la construcción de euskal wordnet, hemos tomado como punto de partida los conceptos del inglés de wordnet, y les hemos añadido sus equivalentes del euskera. Para ello, al principio, priorizamos la cobertura -introduciendo en todos los conceptos ingleses sus equivalentes vascos automáticamente., Y más tarde, nos centramos en la calidad de los equivalentes del euskera- primero, mediante la revisión manual tomando como punto de partida los conceptos; posteriormente, mediante la revisión manual tomando como punto de partida los lemas; y finalmente, basándonos en la información de un corpus vasco que estamos etiquetando paralelamente: eusemcor (agirre et al., 2006). En estas revisiones de euskal wordnet -y teniendo en cuenta que nuestro wordnet se está construyendo sobre un wordnet inglés- han emergido varios rasgos distintivos entre el inglés y el euskera, así como, los relacionados con la lexicalización y la organización jerárquica. Hemos examinado estos rasgos, y hemos definido unas directrices a seguir en estos casos. Finalmente, con la intención de enriquecer euskal wordnet con más información sintáctico-semántica, hemos analizado las restricciones de selección de unos verbos correspondientes al ámbito del deporte y que han sido adquiridas automáticamente. Los objetivos de este estudio son, por una parte, el estudio,comparación y evaluación de las restricciones de selección adquiridas de corpus diferentes; y por otra, demostrar que las restricciones de selección pueden ser multilingí¼es.

 

Datos académicos de la tesis doctoral «Base de conocimiento léxico para el euskera: euskal wordnet«

  • Título de la tesis:  Base de conocimiento léxico para el euskera: euskal wordnet
  • Autor:  Elisabete Pociello Irigoyen
  • Universidad:  País vasco/euskal herriko unibertsitatea
  • Fecha de lectura de la tesis:  28/02/2008

 

Dirección y tribunal

  • Director de la tesis
    • Eneko Agirre Bengoa
  • Tribunal
    • Presidente del tribunal: miren Azkarate villar
    • xabier Artola zubillaga (vocal)
    • beatriz Fernández fernández (vocal)
    • ricardo Etxepare iginitz (vocal)

 

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll al inicio