Audio content processing for automatic music genre classification: descriptors, databases, and classifiers

Tesis doctoral de Enric Guaus Termens

Esta tesis estudia la clasificación automática de géneros musicales, basada en el análisis del contenido de la señal de audio, planteando sus problemas y proponiendo soluciones. Se propone un estudio de la clasificación de los géneros musicales desde el punto de vista computacional, pero inspirado en teorías de los campos de la musicología y la percepción. El objetivo es comparar y evaluar los resultados obtenidos de estos experimentos para explicar los límites de las tasas de acierto de los algoritmos actuales, y proponer nuevas estrategias para superarlos. En este contexto, se propone el estudio de distintas familias de descriptores de audio referentes al timbre, al ritmo, a la tonalidad o a otros aspectos de la música. Algunos de los descriptores son propuestos por el mismo autor, mientras que otros son perfectamente conocidos. Por otra parte, también se comparan las técnicas de aprendizaje artificial que se usan tradicionalmente, y analizamos su comportamiento en frente de nuestro problema de clasificación. También planteamos una discusión sobre su capacidad para representar los diferentes modelos de clasificación propuestos en el campo de la percepción. Estos resultados de la clasificación se comparan con los resultados de unos tests y encuestas realizados sobre un conjunto de individuos. Como resultado de esta comparativa se propone una arquitectura específica de clasificadores que también está razonada y detallada en el cuerpo de la tesis. Finalmente, se hace un énfasis especial en comparar los resultados de los clasificadores automáticos en distintos escenarios que asumen la mezcla de bases de datos, algunas muy grandes y otras muy pequeñas, etc. Como conclusión, mostraremos como la arquitectura de clasificación propuesta permite romper el límite actual en el ámbito de la clasificación automática de géneros musicales. De forma condensada, podemos decir que esta tesis contribuye en el campo de la clasificación de los géneros musicales el los siguientes aspectos: a) proporciona una revisión multidisciplinar de los géneros musicales y su clasificación; b) presenta una evaluación cualitativa y cuantitativa de las familias de descriptores de audio para la clasificación de géneros musicales; c) evalúa los pros y contras de las distintas técnicas de aprendizaje artificial delante del género; d) propone una arquitectura nueva del clasificador de acuerdo con una visión interdisciplinar de los géneros musicales; e) analiza el comportamiento de la arquitectura propuesta delante de entornos muy diversos en los que se podría implementar el clasificador.

 

Datos académicos de la tesis doctoral «Audio content processing for automatic music genre classification: descriptors, databases, and classifiers«

  • Título de la tesis:  Audio content processing for automatic music genre classification: descriptors, databases, and classifiers
  • Autor:  Enric Guaus Termens
  • Universidad:  Pompeu fabra
  • Fecha de lectura de la tesis:  21/09/2009

 

Dirección y tribunal

  • Director de la tesis
    • Xavier Serra Casals
  • Tribunal
    • Presidente del tribunal: leo Wanner
    • marcelo Bertalmío (vocal)
    • José Manuel Iñesta quereda (vocal)
    • rubén Lopez cano (vocal)

 

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll al inicio