Pragmatikako erlaziozko diskurtso-egitura: deskribapena eta bere ebaluazioa hizkuntzalaritza konputazionalean

Tesis doctoral de Mikel Iruskieta Quintian

Giza komunikaziorako idatzizko testu gehienak esaldi bat baino gehiagoz osatzen dira eta esaldi horien artean dauden erlazio guztiak ezin dira bata bestearen ondoren datorren esaldi-segida batekin azaldu (van dijk 1997). Orokorrean testu koherenteek justaposizioa baino egitura konplexuagoa izaten dute, testuekin azaldu nahi dena modu zehatzean eta testuko gaiaren alderdi ezberdinak (aurkakoak ere zenbait kasutan) kontuan izanik egin nahi bada behintzat. Testuek duten egitura horri erlaziozko diskurtso-egitura esaten zaio eta pragmatikaren barruan bere deskribapena diskurtsoaren analisia izeneko esparruan kokatzen da.Erlaziozko diskurtso-egituraz diharduten lanak irakurtzean, komunitate zientifikoak diskurtsoari buruzko teoria nagusietako bi fenomeno nagusiak (egituraren hierarkikotasuna eta testu-zatien arteko erlazioak) deskribatzeko ahalegin handia egin dela konturatu bagara ere, euskaraz ez dago esparru horretako lanik eta koherentzia-erlazio inplizituak ez dira kontuan hartu izan. Tesi-txosten honetan domeinu ezberdineko laburpen zientifikoen erlaziozko diskurtso-egitura zelan aberastu dugun deskribatzen dugu, baita testuak maila horretan etiketatzeko dagoen arazorik handiena, analisten arteko subjektibotasuna, zelan gainditu dugun ere. Horretarako rhetorical structure theory (rst) (mann eta thompson1987) erabili dugu, hizkuntzalaritza konputazionalaren alorrean erlaziozko diskurtso-egituraren fenomenoa deskribatzeko teoriarik zabalduena. Euskaraz, esan dugunez, orain arte testuen koherentzia erlazioak partzialki aztertu dira, koherentzia-erlazio esplizituak baino ez baitira aztertu. Tesi honek hutsune hori beteko du testuen koherentzia erlazioak (esplizituak eta inplizituak, biak) irizpide semantiko-pragmatikoetan oinarrituz eta testuaren maila ezberdinetan (mikroegituran eta makroegituran) deskribatuz. Horrez gain, aurkeztuko dugun etiketatze-metodología berritzaileari esker tesian egingo dugun baieztapen nagusia da analisten arteko subjektibotasun hori ez dela beti gradu berean agertzen: ez egitura hierarkikoaren bizkarrezurrean, ez diskurtso-egitura errepresentatzen duen zuhaitzaren maila ezberdinetan, ez testu-zatien arteko zenbait erlaziotan ere. Hori erakusteko erlazio-egiturak ebaluatzeko sistema kualitatibo-kuantitatibo berritzailea proposatu dugu. Sistema hori euskarazko testu aberastuen fidagarritasuna ebaluatzeko erabili badugu ere, corpus paraleloetako egiturak konparatzeko balio duela erakutsiko dugu. Gainera, etiketatzaileen arteko adostasuna handitzeko helburua duten entrenamendu-faseak erlazio erretorikoen eta erlazio-seinaleen artean lekarkeen zirkulartasun-arazoa saihesteko eta diskurtso-egituraren fidagarritasuna handitzeko epaileak jarraitu behar dituen irizpideak zehaztu ditugu lehendabizikoz rstn. Proposamen horren ondorio nagusitzat euskararako diskurtso-egituraz aberasturiko lehen ereduzko corpusaren ezaugarriak aurkeztuko ditugu. Horrez gain, corpus aberastuan egin daitezkeen galdeketa berritzaileak eta corpus hori komunitate zientifikoaren eskuetan jartzeko egin ditugun zabalkunde-lanak azalduko ditugu. Izan ere, maila ezberdinetan aberasturiko corpusaren fitxategiak edonoren eskuetan jarri ditugu, euskararen prozesamenduko zenbait atazatan erabilgarri izateko: segmentazio automatikoan, informazio-erauzketan, laburpen automatikoan eta itzulpen automatikoan, besteak beste.Written human communications usually consist of more than one sentence, and the coherence relations that exist between these sentences cannot be explained in terms of a successive sequence of phrases (van dijk 1997). Normally, coherent texts have a structure that is much more complex than mere juxtaposition, providing, of course, that the author wishes to explain him or herself clearly and take into account all the different sides (even the opposing ones) of the issue at hand. This structure is called relational discourse structure, and its description is located within the field of pragmatics known as discourse analysis.Upon reading works focusing on relational discourse structure, we realize that although a concerted effort has been made by the scientific community to describe the two main phenomena of the relational discourse structure theory (hierarchical structure and the rhetorical relations between text segments), hardly any work has been carried out in this field in relation to the basque language, and implicit coherence relations have not been taken into account. This thesis-report describes how we annotated scientific abstracts from different domains with the relational discourse structures found in them. It also describes how we overcame the most important problem encountered when annotating texts at this level, namely inter-annotator subjectivity. To this end, we used rhetorical structure theory (rst) (mann and thompson 1987) the most widely accepted theory for describing relational discourse structure phenomena in the field of computational linguistics. As stated above, for the basque language, coherence relations have only been partially analyzed to date, with almost all focus being firmly placed on explicit coherence relations. This thesis seeks to redress this situation by describing coherence relations (both explicit and implicit) at different levels (micro-structure and macro-structure), and based on semantic-pragmatic criteria. Moreover, thanks to an innovative annotation method that will also be presented here, the paper¿s main claim is that inter-annotator subjectivity is not always present to the same degree in the backbone of hierarchical structures, at the different levels of the discourse structure tree or indeed in certain coherence relations between different text segments. To demonstrate this, we propose an innovative qualitative-quantitative relational discourse structure evaluation system. Although we have used this system here to evaluate the reliability of an annotated text in the basque language, we will also demonstrate that it can be used to compare structures in parallel corpora. Moreover, in order both to avoid circularity problems between rhetorical relations and their signals that may arise as the result of a training phase designed to increase inter-annotator agreement, and to enhance the reliability of discourse structures, we first established the criteria to be followed by the super annotator within rst. The principal outcome of this proposal is a set of characteristics of the first reference corpus in the basque language annotated with relational discourse structure. We will also outline some innovative search tools to consult the contents of the tagged corpus and will describe the work carried out to disseminate the corpus and make it available to the scientific community at large. The files of the corpus annotated at different language levels have been made available to any interested party, in the hope that they will prove useful to certain tasks involved in the processing of the basque language, including: automatic segmentation, information retrieval, automatic summarization and machine translation, among others.


Datos académicos de la tesis doctoral «Pragmatikako erlaziozko diskurtso-egitura: deskribapena eta bere ebaluazioa hizkuntzalaritza konputazionalean«

  • Título de la tesis:  Pragmatikako erlaziozko diskurtso-egitura: deskribapena eta bere ebaluazioa hizkuntzalaritza konputazionalean
  • Autor:  Mikel Iruskieta Quintian
  • Universidad:  País vasco/euskal herriko unibertsitatea
  • Fecha de lectura de la tesis:  26/02/2014


Dirección y tribunal

  • Director de la tesis
    • Mikel Lersundi Ayestaran
  • Tribunal
    • Presidente del tribunal: miren Azkarate villar
    • thiago alexandre Salgueiro pardo (vocal)
    • iria da Cunha fanego (vocal)
    • itziar Aduriz agirre (vocal)


