A quantitative approach to concept analysis

Tesis doctoral de Rogelio Nazar

El presente trabajo se centra en el estudio de la distribución del léxico en corpus y su cometido es el análisis de las relaciones existentes entre los conceptos a través de los términos que estos designan. La hipótesis de partida es que podemos analizar conceptos estudiando los contextos de aparición de los términos que los designan, utilizando para ello las estadísticas de coocurrencia de los términos en ventanas de contexto de n palabras. La tesis presenta un modelo computacional en forma de grafos de coocurrencia de términos donde los nodos representan términos simples o sintagmáticos. Dado un término analizado, se deriva un grafo para ese término a partir de un corpus. A medida que los textos se analizan, cada vez que dos términos aparecen juntos en una misma ventana de contexto, los nodos que los representan se conectan entre sí mediante un arco o bien fortalecen su conexión si ya la tenían. Este grafo es presentado como un modelo de aprendizaje, y como tal es evaluado mediante experimentos en que un ordenador resuelve tareas propias del análisis conceptual. Estas tareas incluyen determinar cuándo una palabra o secuencia de palabras dentro de un texto hace referencia a un concepto definido, así como determinar algunas de las propiedades más importantes de este concepto, tal como sus relaciones taxonómicas. Otras tareas son las de determinar cuándo una misma palabra puede hacer referencia a más de un concepto (casos de homonimia o polisemia) o determinar cuándo distintas palabras hacen referencia a un mismo concepto (casos de sinonimia o equiValencia entre lenguas o variedades dialectales). Como una interpretación lingí¼ística de estos fenómenos, esta tesis extrae una generalización en el plano del análisis del discurso: las propiedades de los grafos de coocurrencia léxica surgen gracias a la tendencia que tienen los autores de textos argumentativos de mencionar algunas de las propiedades más importantes de los conceptos que introducen en el discurso. Esto ocurre sobre todo al inicio del discurso, con el objeto de asegurar que los principios entre lector y autor son compartidos. Cada autor predicará distintas informaciones acerca de un determinado concepto, pero los autores que traten sobre un mismo tema tendrán tendencia a partir de una misma base y esta coincidencia se manifestará en la selección del léxico que, por su efecto acumulativo, puede ser estudiada de manera estadística.

 

Datos académicos de la tesis doctoral «A quantitative approach to concept analysis«

  • Título de la tesis:  A quantitative approach to concept analysis
  • Autor:  Rogelio Nazar
  • Universidad:  Pompeu fabra
  • Fecha de lectura de la tesis:  01/10/2010

 

Dirección y tribunal

  • Director de la tesis
    • Leo Wanner
  • Tribunal
    • Presidente del tribunal: María teresa Cabre castellvi
    • Juan Manuel Torres moreno (vocal)
    • guadalupe Aguado de cea (vocal)
    • jean Véronis (vocal)

 

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll al inicio