Network traffic classification: from theory to practice

Tesis doctoral de Valentin Daniel Carela Español

Desde sus orígenes hasta la actualidad, internet ha estado en constante evolución. El análisis y la monitorización de las redes tratan de arrojar luz sobre esta caja negra de ordenadores interconectados que es internet. En particular, la clasificación de tráfico de red se ha vuelto crucial para la comprensión de internet. Durante los últimos años, la comunidad investigadora ha propuesto muchas soluciones para clasificar con precisión el tráfico de red. Sin embargo, la continua evolución de las aplicaciones de internet y sus técnicas para evitar ser detectadas hace su identificación un tarea muy complicada, que está lejos de estar completamente resuelta. esta tesis aborda el problema de la clasificación de tráfico de red desde un punto de vista más práctico, tratando de hacer confluir las necesidades de los entornos reales y la investigación llevada a cabo. En este trabajo identificamos diferentes problemas que entorpecen la introducción de las nuevas propuestas para clasificar el tráfico en redes troncales. el primer bloque de esta tesis pretende facilitar el despliegue de las técnicas de clasificación en redes troncales. Para ello estudiamos la viabilidad de usar como entrada de nuestra técnica netflow, un protocolo de monitorización implementado en la mayoría de enrutadores. Además, dado que la aplicación de muestreo de paquetes es una práctica muy extendida en las redes troncales, estudiamos su impacto en la clasificación y proponemos un método para mejorar su precisión en este escenario. Los resultados muestran que es posible conseguir una alta precisión tanto con datos netflow muestreados como no muestreados, a pesar de la limitada información que nos proporciona netflow. una vez desplegado el sistema de clasificación el siguiente objetivo es mantener su precisión a lo largo del tiempo. El segundo bloque se centra en este problema persiguiendo automatizar el proceso de mantenimiento y hacerlo sin intervención humana. Siguiendo la línea del primer bloque, proponemos un sistema de clasificación que combina varias técnicas que usan únicamente netflow como entrada para la clasificación. A partir de este sistema mostramos que los modelos de clasificación sufren de obsolescencia temporal y espacial y, para ello, diseñamos e implementamos un sistema de reentreno automático capaz de actualizar automáticamente los modelos y mantener la clasificación precisa a lo largo del tiempo. yendo un paso más allá, introducimos el uso de técnicas de aprendizaje máquina (ml, por sus siglas en inglés) basadas en flujos de datos para la clasificación de tráfico de red. En particular, proponemos una solución basada en hoeffding adaptive trees. Además de las características propias de las técnicas basadas en flujos de datos (i.E., Inspección única de cada instancia, con una cantidad de memoria predefinida y en un tiempo limitado), nuestra técnica es capaz de adaptarse automáticamente a los cambios en el tráfico usando únicamente datos netflow como entrada para la clasificación. el tercer bloque pretende ser un primer paso hacia la validación imparcial de las propuestas de la literatura. El amplio rango de técnicas, conjuntos de datos y generadores de verdad terreno hacen la validación de los diferentes clasificadores una tarea muy complicada. Con ese fin evaluamos la fiabilidad de diferentes técnicas basadas en inspección profunda de paquetes (dpi, por sus siglas en inglés) habitualmente usadas en la literatura para la generación de la verdad terreno. Los resultados muestran que algunas técnicas dpi presentan graves errores que desaconsejan su uso en su estado actual. Además, para abordar la falta de conjuntos de datos públicos, publicamos algunos de los usados en nuestras evaluaciones para facilitar la comparación de las técnicas existentes. En particular, el conjunto de datos publicado en el tercer bloque es el primer conjunto de datos etiquetado fiablemente y con el contenido completo que está disponible para la comunidad investigadora.

 

Datos académicos de la tesis doctoral «Network traffic classification: from theory to practice«

  • Título de la tesis:  Network traffic classification: from theory to practice
  • Autor:  Valentin Daniel Carela Español
  • Universidad:  Politécnica de catalunya
  • Fecha de lectura de la tesis:  31/10/2014

 

Dirección y tribunal

  • Director de la tesis
    • Pere Barlet Ros
  • Tribunal
    • Presidente del tribunal: jens myrup Pedersen
    • pedro Casas hernandez (vocal)
    • (vocal)
    • (vocal)

 

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll al inicio