Applying causal-state splitting reconstruction algorithm to natural language processing tasks
Tesis doctoral de Montserrat Padró Cirera This thesis is focused on the study and use of causal state splitting reconstruction (cssr) algorithm for natural language processing (nlp) tasks. cssr is an algorithm that captures patterns from data building automata in the form of visible markov models. it is based on the principles of computational mechanics and takes advantage of many properties of causal state theory. one of the main advantages of cssr with respect to markov models is that it builds states containing more than one $n$Âgram (called history in computational mechanics), so the obtained automata are much smaller than the equivalent markov model. in this work, we first study the behavior of the algorithm when learning patterns related to nlp tasks but without performing any annotation task. this first experiments are useful to understand the parameters that affect the algorithm and to check that it is able to capture the patterns present in natural language sentences. secondly, we propose a way to apply cssr to nlp annotation tasks. the algorithm is not originally conceived to use the hidden information necessary for annotation tasks, so we devised a way to introduce it into the system in order to obtain automata including this information that can be afterwards used to annotate new text. also, some methods to deal with unseen events and a modification of the algorithm to make it more suitable for nlp tasks have been presented and tested. these three aspects conform the first line of contributions of this research, altogether with a […]