Tesis doctoral de Izaskun Fernandez Gonzalez
Euskarazko entitate-izenak (pertsona-, toki- eta erakunde-izenak) automatikoki lantzea izan da tesi-lan honen helburua. Lan horretan bereziki hiru alor jorratu ditugu:¿ euskarazko entitate-izenen identifikazio eta sailkapena: euskarazko testuetan agertzen diren entitate-izenak automatikoki identifikatu eta sailkatzeko tresnaren garapenerako bidean, hizkuntza-ezagutzan zein ikasketa automatikoko teknikak erabiliz eta konbinatuz, ingelesarentzat garatutako tresnen pareko tresna garatzea izan da ataza honen helburu nagusia. Zeregin horretan, teknika egokienak aztertu dira eta horien konbinazioen portaerak aztertzeko tarteko helburua ere landu da. Euskararen kasuan baliabide mugatuekin problemei aurre egiteko bidea bilatu da ahal izan denean. ¿ euskarazko entitate-izenen itzulpena: itzulpen-automatikoko zein galdera-erantzun eleanitzen aplikazioetarako lagungarri gertatzen diren entitate-izenen aipamen eleanitzak automatikoki sortzeko estrategiaren definizioa eta garapena izan da eginkizun honen funtsa. Euskarazko entitate-izenak izanik abiapuntua eta gaztelera helburu-hizkuntza, hizkuntza-ezagutzan oinarritutako eta teknika erdi-gainbegiratuekin hurbilpen desberdinak egin eta horien portaerak aztertu dira. Hurbilpen bakoitzerako beharrezkoak diren baliabideak eta emaitzak aztergai izan ditugu. Azkenik, teknika erdi-gainbegiratuekin egindako ekarpena beste hizkuntza bikote batzuetara hedatzeko ahalmena ere aztertu da. ¿ euskarazko entitate-izenen desanbiguazioa: euskarazko testuetan agertzen diren entitate-izenen agerpen anbiguoak automatikoki desanbiguatzea izan da eginkizun zehatz honetan ebatzi beharrekoa. Edozein desanbiguazio-atazatan bezala, desanbiguazioa automatikoki burutu ahal izateko agerpenaren testuinguruaz gain ezagutza-base bat sortzea beharrezkoa izan da, non espresio anbiguo baten adiera posibleak deskribatzen diren. Euskarazko entitate-izenen desanbiguaziorako ezagutza-base horren definizioan, euskarazko wikipediaren erabilgarritasuna aztertu da. Eta baliabide horren ezaugarriak ahalik eta hobekien baliatuz, euskarazko entitate-izenak automatikoki desanbiguatzeko agerpen bat eta wikipedia sarrera bat lotzen duen prozesua definitu da. Prozesu horren automatizaziorako, ingelesa bezalako beste hizkuntza batzuetarako erabilitako teknika onenak erabili, eta euskara bezalako baliabide urriko hizkuntzan baliabide mugatuekin lan egitean horien portaera aztertu da. Eginkizun horietan guztietan baliabideen berrerabilpenari, metodo sinple eta horien konbinazioen azterketari, eta oro har euskararen ezaugarri morfosintaktikoek entitate-izenen atazetan duten eraginaren azterketari lehentasuna eman diegu.
Datos académicos de la tesis doctoral «Entitate-izenak euskaraz: identifikazioa, sailkapena, itzulpena eta desanbiguazioa«
- Título de la tesis: Entitate-izenak euskaraz: identifikazioa, sailkapena, itzulpena eta desanbiguazioa
- Autor: Izaskun Fernandez Gonzalez
- Universidad: País vasco/euskal herriko unibertsitatea
- Fecha de lectura de la tesis: 21/03/2012
Dirección y tribunal
- Director de la tesis
- Nerea Ezeiza Ramos
- Tribunal
- Presidente del tribunal: m. aranzazu Diaz de ilarraza sanchez
- Atserias i batalla jordi (vocal)
- lluís Padró cirera (vocal)
- raquel Martinez unanue (vocal)