Tesis doctoral de Alejandro Rabasa Dolado
Los sistemas de reglas de clasificación suelen ser difíciles de interpretar por parte de los expertos a los que van dirigidos porque: contienen numerosas reglas, éstas están desordenadas y a veces presentan inconsistencias y redundancias entre ellas. Esta tesis pretende facilitar la interpretación de tales sistemas, a partir de la consecución de los siguientes objetivos: realizar un detallado estado del arte de los métodos predictivos usados en data mining, especialmente centrado en las reglas de clasificación. Se pretende desarrollar un método de complejidad polinomial, que basado en una nueva métrica de significancia de las reglas, sea capaz de clasificarlas según su tipo de significancia, eliminando las irrelevantes. Por último, se debe comparar cualitativamente la métrica propuesta con otras existentes, evaluando bajo qué condiciones es aconsejable el uso de la misma. el método ubica las reglas en un espacio bi-dimensional según sus valores de soporte y confianza y las asigna a su correspondiente región. Posteriormente se calcula la métrica que identifica, por si misma, el tipo de significancia. Se calcula también el índice de correlación de los atributos del sistema al que pertenece dicha regla. Las reglas estadísticamente insignificantes son eliminadas del sistema, y el conjunto final contiene las reglas agrupadas según su tipo de significancia: positiva, discriminante o casos anómalos. El método es probado sobre grandes conjuntos de datos, simulados, algunos privados y otros públicos (de la universidad de california, irvine). los resultados son sometidos a la interpretación de expertos de ámbitos tan diferentes como los recursos hídricos, la inserción laboral y la medicina quienes constatan, en cada caso, la correcta ubicación de las reglas en sus correspondientes regiones, así como la validez del conjunto final reducido. Los resultados sobre el conjunto de datos simulado ponen de manifiesto la validez y la genericidad del algoritmo, pues reflejan absolutamente las condiciones a partir de las cuales se realizó la simulación. las conclusiones más relevantes alcanzadas son las siguientes: el estado del arte en métodos predictivos de data mining señala el campo de la reducción de sistemas de reglas de clasificación como susceptible de ser sometido a mejoras orientadas a facilitar su interpretación. La métrica propuesta es capaz de clasificar, por su propio valor, el tipo de significancia de las reglas. El método de reducción posee una complejidad temporal lineal (mejor caso de la polinomial propuesta como objetivo), es independiente de los métodos de generación de sistemas y es de carácter genérico, según se desprende de su validez en diferentes ámbitos y se constata con experimento sobre datos simulados.
Datos académicos de la tesis doctoral «Método para la reducción de sistemas de reglas de clasificación por dominios de significancia«
- Título de la tesis: Método para la reducción de sistemas de reglas de clasificación por dominios de significancia
- Autor: Alejandro Rabasa Dolado
- Universidad: Miguel hernández de elche
- Fecha de lectura de la tesis: 05/03/2009
Dirección y tribunal
- Director de la tesis
- Laureano Fernando Escudero Bueno
- Tribunal
- Presidente del tribunal: José María Gomez gras
- gloria isabel Pérez sáinz de rozas (vocal)
- María teresa Ortuño sánchez (vocal)
- María araceli Garín martín (vocal)