Tesis doctoral de Ana M. Puig Montada
En esta tesis se realiza un tratamiento de un corpus de textos catalanes de un total de 30885 lemas clasificados por sus categorias y que les corresponden 777485 ocurrencias. El corpus procede de libros de cuatro materias, estas son: logica, matematicas, fisica y quimica y prosa estandar. Dicho corpus entrado por escaner al ordenador ha sido estudiado por metodos estadisticos y se han realizado las comparaciones entre las cuatro materias. Se ha calculado la entropia segun shannon de cada materia mediante el uso de programas realizados en pascal. Se ha calculado la media y la desviacion estandar. En una fase posterior se ha aplicado la teoria de proximidades a los cuatro tipos de corpus, calculando la dimension fractal para poder caracterizar cada tipo de lenguaje. Finalmente se relacionan la entropia junto con la teoria de proximidades para deducir el perfil de cada tipo de lenguaje, tanto globalmente como para el caso de los substantivos.
Datos académicos de la tesis doctoral «Tractament de corpus textuals lematitzats i estudi comparatiu del llenguatge cientific amb la prosa estandard«
- Título de la tesis: Tractament de corpus textuals lematitzats i estudi comparatiu del llenguatge cientific amb la prosa estandard
- Autor: Ana M. Puig Montada
- Universidad: Politécnica de catalunya
- Fecha de lectura de la tesis: 01/01/1995
Dirección y tribunal
- Director de la tesis
- Martin Rioja José Andres
- Tribunal
- Presidente del tribunal: Ramón Cerdí Massó
- José Simón Granda (vocal)
- Ton Sales Porta (vocal)
- Nuria Rafel Fontanals (vocal)