Feature selection based on information theory

Tesis doctoral de Boyan Ivanov Bonev

Con el aumento de la capacidad computacional de los ordenadores y de los métodos de adquisición de datos, la dimensionalidad de los datos es cada vez más alta. El campo de reconocimiento de patrones se enfrenta a problemas con muestras compuestas por miles de características y la reducción de su dimensionalidad es un preproceso crucial para hacerlas tratables. en la presente tesis proponemos un método de selección de características para clasificación supervisada. La principal aportación es el uso eficiente de la teoría de la información, que provee un marco teórico sólido para medir la relación entre las clases y las características. Se considera que la información mutua es la mejor medida para tal fin. Tradicionalmente ésta se ha utilizado para evaluar características de una en una, sin tener en cuenta sus interacciones dentro del conjunto. Esto es debido a la complejidad computacional implicada en su cálculo. Dado que muchos conjuntos de datos contienen características que no son independientes entre si, la suma de sus predicciones individuales no es igual a su predicción en conjunto. una forma de estimar la información mutua es estimando la entropía. Los métodos basados en estimación de densidades sólo pueden ser usados para conjuntos de datos con un número de muestras muy alto, y pocas características (dimensiones). Por esta razón analizamos el uso de métodos de estimación de entropía que no necesitan estimar densidades. Estos métodos permiten evaluar de manera eficiente conjuntos de datos definidos por miles de características. para los conjuntos de datos de alta dimensionalidad, otro de los problemas existentes es el orden en el espacio de búsqueda. Los algoritmos voraces son los más rápidos y que cometen menos sobreaprendizaje. Demostramos que, en términos de teoría de la información, un algoritmo voraz de eliminación de características hacia atrás, conserva la cantidad de información mutua, aunque el conjunto resultante no sea el mínimo. validamos nuestro método en tres aplicaciones reales de diferentes campos. Lo aplicamos a la clasificación de imágenes omnidireccionales, a la selección de genes en problemas de clasificación para la predicción de enfermedades de cáncer, y por último a clasificación estructural basada en grafos. Las tres aplicaciones demuestran importantes mejoras de la clasificación en sus respectivos campos.

 

Datos académicos de la tesis doctoral «Feature selection based on information theory«

  • Título de la tesis:  Feature selection based on information theory
  • Autor:  Boyan Ivanov Bonev
  • Universidad:  Alicante
  • Fecha de lectura de la tesis:  29/06/2010

 

Dirección y tribunal

  • Director de la tesis
    • Francisco Escolano Ruíz
  • Tribunal
    • Presidente del tribunal: josé Oncina carratalá
    • Antonio Jesús Bandera rubio (vocal)
    • Antonio Peñalver benavent (vocal)
    • petia Radeva ivanova (vocal)

 

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll al inicio