Tesis doctoral de Horacio Rodríguez Hontoria

Información academica Horacio Rodríguez Hontoria. Tesis donde Horacio Rodríguez Hontoria ha sido autor, director o parte del tribunal.

Applying causal-state splitting reconstruction algorithm to natural language processing tasks

Tesis doctoral de Montserrat Padró Cirera This thesis is focused on the study and use of causal state splitting reconstruction (cssr) algorithm for natural  language processing (nlp) tasks. cssr is an algorithm that captures patterns from data building automata in the  form of visible markov models. it is based on the principles of computational mechanics and takes advantage of many  properties of causal state theory. one of the main advantages of cssr with respect to markov models is that it builds  states containing more than one $n$­gram (called history in computational mechanics), so the obtained automata are  much smaller than the equivalent markov model. in this work, we first study the behavior of the algorithm when learning patterns related to nlp tasks but without  performing any annotation task. this first experiments are useful to understand the parameters that affect the  algorithm and to check that it is able to capture the patterns present in natural language sentences.  secondly, we propose a way to apply cssr to nlp annotation tasks. the algorithm is not originally conceived to use  the hidden information necessary for annotation tasks, so we devised a way to introduce it into the system in order to  obtain automata including this information that can be afterwards used to annotate new text. also, some methods to  deal with unseen events and a modification of the algorithm to make it more suitable for nlp tasks have been  presented and tested. these three aspects conform the first line of contributions of this research, altogether with a 

, , , , ,
Scroll al inicio