A communication perspective on automatic text categorization

Tesis doctoral de Marta Capdevila Dalmau

El interés principal de un sistema de comunicación es el de transferir información desde su fuente hasta su destino. Los documentos de texto también tratan con la transmisión de información. Particularmente, desde el punto de vista de un sistema de categorización de texto, la información codificada por un documento es el tema o categoría a la cual pertenece. Siguiendo esta intuición inicial, que a nuestro saber no ha sido explorada anteriormente, esta tesis desarrolla un nuevo marco teórico donde se estudia la categorización automática de textos (atc) desde una perspectiva de sistemas de comunicación. bajo este enfoque, en lo concerniente a la representación interna del documento, se ha abordado la problemática reducción del espacio de indexación con un esquema supervisado de dos niveles, implementado por un filtrado de términos ruidosos y una posterio compresión de términos redundantes. Con este objetivo, los términos han sido caracterizados por una función de distribución por categorías sobre la cual se han podido establecer medidas de dispersión, que evalúan el grado de información que conlleva el término, y medidas de similitud, que determinan la cantidad de redundancia que hay entre ellos. El tema de la compresión de términos redundantes se ha tratado bajo un enfoque de agrupación (clustering) aglomerativa que reagrupa términos similares que pueden ser tratados como una única entidad de indexación. en lo que respecta al clasificador, los categorizadores probabilísticos gausianos, hasta ahora básicamente ignorados, han sido revisados y adaptados a la concomitante dispersión en atc. Al supuesto gausiano se ha añadido la hipótesis de independencia adoptada por el enfoque naive bayes, lo que ha generado la familia de clasificadores naive bayes gausianos (gnb). Además, la idea perseguida por nuestra familia de clasificadores adaptados gnb es la de establecer una cota inferior para la varianza gausiana de manera a mitigar los efectos de la dispersión típica en la representación de las colecciones de textos.

 

Datos académicos de la tesis doctoral «A communication perspective on automatic text categorization«

  • Título de la tesis:  A communication perspective on automatic text categorization
  • Autor:  Marta Capdevila Dalmau
  • Universidad:  Vigo
  • Fecha de lectura de la tesis:  13/03/2009

 

Dirección y tribunal

  • Director de la tesis
    • Oscar Willian Marquez Florez
  • Tribunal
    • Presidente del tribunal: fernando Pérez gonzález
    • david enrique Losada carril (vocal)
    • lorenza Carrasco martorell (vocal)
    • Jesús Cid sueiro (vocal)

 

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll al inicio