Tesis doctoral de Miguel Lázaro Gredilla
Los procesos gaussianos (gaussian processes, gps) son modelos bayesianos noparamétricos que representan el actual estado del arte en tareas de aprendizaje supervisado tales como regresión y clasificación. Por este motivo, son uno de los bloques básicos usados en la construcción de otros algoritmos de aprendizaje máquina más sofisticados. Asimismo, los gps tienen una variedad de propiedades muy deseables: son prácticamente inmunes al sobreajuste, disponen de mecanismos sensatos y cómodos para la selección de modelo y proporcionan las llamadas «barras de error», es decir, son capaces de estimar la incertidumbre de sus propias predicciones. desafortunadamente, los gps completos no pueden aplicarse directamente a bases de datos de gran tamaño, cada vez más frecuentes en la actualidad. Para n muestras, el tiempo de cómputo necesario para entrenar un gp escala como o(n3), lo que hace que un ordenador doméstico actual sea incapaz de manejar conjuntos de datos con más de unos pocos miles de muestras. Para solventar este problema se han propuesto recientemente varias aproximaciones «dispersas», que escalan linealmente con el número de muestras. De entre éstas, el método conocido como «procesos gaussianos dispersos usando pseudo-entradas» (sparse pseudo-inputs gp, spgp), representa el actual estado del arte. Aunque este tipo de aproximaciones dispersas permiten tratar bases de datos mucho mayores, obviamente no alcanzan el rendimiento de los gps completos en esta tesis se introducen varios modelos de gp disperso que presentan un rendimiento mayor que el del spgp, tanto en cuanto a capacidad predictiva como a calidad de las barras de error. Los modelos propuestos convergen al gp completo que aproximan bajo determinadas condiciones, pero el objetivo de esta tesis no es tanto aproximar fielmente el gp completo original como proporcionar modelos prácticos de alta capacidad predictiva. Tanto es así que, en ocasiones, los nuevos modelos llegan a batir al gp completo que los inspira. se proporcionan dos clases generales de modelos: redes marginalizadas (marginalized networks, mns) y gps inter-dominio (inter-domain gps, idgps). Las mns pueden verse como modelos que se encuentran a mitad de camino entre las redes neuronales clásicas (neural networks, nns) y los gps completos, intentando combinar las ventajas de ambos. Aunque la fase de entrenamiento de una mn es diferente, cuando se utiliza para predicción mantiene la estructura de una nn clásica, de manera que las mns pueden ser interpretadas como una manera novedosa de entrenar nns clásicas, al tiempo que se añaden beneficios adicionales, como resistencia al sobreajuste y «barras de error» dependientes de la entrada. Los idgps generalizan el spgp, permitiendo a las «pseudo-entradas» residir en un dominio diferente del de entrada, incrementado así la flexibilidad y el rendimiento. Además, proporcionan un marco probabilístico adecuado para entender modelos dispersos anteriores así pues, todos los algoritmos propuestos son puestos a prueba y comparados con el spgp sobre varios conjuntos de datos estándar de diferentes propiedades y de gran tamaño. Se intentan identificar además las fortalezas y debilidades de cada uno de los métodos, de manera que sea más sencillo elegir el mejor candidato para cada aplicación potencial.
Datos académicos de la tesis doctoral «Sparse gaussian processes for large-scale machine learning«
- Título de la tesis: Sparse gaussian processes for large-scale machine learning
- Autor: Miguel Lázaro Gredilla
- Universidad: Carlos III de Madrid
- Fecha de lectura de la tesis: 20/05/2010
Dirección y tribunal
- Director de la tesis
- Juan Ramón Vidal Romaní
- Tribunal
- Presidente del tribunal: alberto Prieto espinosa
- José Luis Alba castro (vocal)
- joaquín Quiñonero candela (vocal)
- Jesús Cid sueiro (vocal)