Resumen
Motivación
Desarrollos y aportes
Publicaciones derivadas de esta tesis doctoral
Capítulo 1. Introducción a la Minería de Datos
1. Minería de datos
1.1. tipos de datos
1.2. tipos de modelos
2. Extracción de conocimiento
2.1. Fase de integración y recopilación
2.2. Fase de selección, limpieza y transformación
2.2.1. Limpieza y transformación
2.2.1.1. Discretización
2.2.1.2. Numerización
2.2.1.3. Normalización de rango: escalado y centrado
2.2.2. Exploración y selección
2.3. Fase de minería de datos
2.3.1. Tareas predictivas
2.3.2. Tareas descriptivas
2.3.3. Técnicas
2.3.4. Aprendizaje inductivo
2.3.5. Grandes bases de datos
2.4. Fase de evaluación e interpretación
2.4.1. Técnicas de evaluación
2.4.1.1. Validación simple
2.4.1.2. Validación cruzada con k pliegues
2.4.1.3. Bootstrapping
2.4.2. Medidas de evaluación de modelos
2.4.3. Interpretación y contextualización
2.5. Fase de difusión, uso y monitorización
3. Árboles de decisión
3.1. Particiones
3.2. Criterio de selección de particiones
3.3. Poda y reestructuración
3.4. Extracción de reglas
4. Algoritmos evolutivos
5. Minado de datos incremental
5.1. Adaptabilidad del modelo
6. Toma de decisiones
7. Hiper-rectángulos
7.1. El uso de los hiper-rectángulos en minería de datos
Capítulo 2. Clasificación utilizando hiper-rectángulos. armado del modelo de datos y
obtención de reglas de clasificación
1. Hiper-rectángulos
1.1. Creación de hiper-rectángulos a partir de una base de datos
2. Superposiciones
2.1. Tipos de superposiciones
2.1.1. Superposición sin datos involucrados
2.1.2. Superposición con datos de una clase
2.1.3. Superposición con datos de ambas clases
2.2. Eliminación de superposiciones
2.2.1. Sin datos involucrados
2.2.2. Con datos de una clase en la superposición
2.2.3. Con datos de ambas clases
3. Índices
3.1. Índices de superposición
3.1.1. Z1i – Proporción del ancho de la intersección de área respecto al ancho del hiper-rectángulo
3.1.2. Z2i – Proporción del ancho del intervalo de la intersección de datos con respecto al ancho del intervalo del subconjunto de datos participante
3.1.3. Z3i – Proporción del ancho del intervalo del subconjunto de datos intersectados en relación al ancho del intervalo del subconjunto de datos participante
3.1.4. Z4i – Proporción del ancho del intervalo del subconjunto de datos participantes en relación al ancho de la superposición de área
3.1.5. Z5i – Desplazamiento del intervalo del subconjunto de datos intersectados de un hiper-rectángulo en relación al mínimo del intervalo de subconjunto de datos participantes del otro hiper-rectángulo.
3.1.6. Z6i – Desplazamiento del intervalo del subconjunto de datos intersectados de un hiper-rectángulo en relación al máximo del intervalo de subconjunto de datos participantes del otro hiper-rectángulo.
3.2. Índice de separabilidad Ω
3.2.1. Ponderando por la cantidad de datos participantes
3.2.1.1. Z1i
3.2.1.2. Z2i
3.2.1.3. Z3i
3.2.1.4. Z4i
3.2.1.5. Z5i
3.2.1.6. Z6i
3.2.1.7. Re-definición del cálculo de Ωi ponderado por los pesos V
3.2.2. Ponderando los índices por otros criterios
3.3. Una estrategia de clasificación flexible
4. CLUHR
4.1. Inicialización del algoritmo
4.1.1. Detectar superposiciones iniciales
4.2. Eliminar todas las superposiciones
4.2.1. Calcular los índices Ω
4.2.2. Realizar el ajuste
4.2.2.1. Método alternativo para la división de hiper-rectángulos cuando hay datos de ambas clases en la superposición
4.2.3. Actualizar los hiper-rectángulos representativos mínimos
4.2.4. Detectar las nuevas superposiciones
4.3. Finalizar con el armado del modelo de datos
4.4. Estructura del modelo de datos
4.5. Datos faltantes
4.6. Una metodología determinista
4.7. Limitaciones de CLUHR
5. Extracción de las reglas
5.1. Método greedy
6. Uso del modelo. predicción
7. Intervención del experto
Capítulo 3. Adaptabilidad y actualización del modelo de datos
1. Adaptabilidad del modelo
1.1. Precondiciones
2. Actualización en línea
2.1. Agregando nuevos datos
2.1.1. El nuevo dato está incluido en un único hiper-rectángulo
2.1.2. El nuevo dato está incluido en una superposición entre dos hiper-rectángulos
2.1.3. El nuevo dato no está incluido en ningún hiper-rectángulo
2.2. Eliminando datos existentes
2.2.1. El dato está incluido en un hiper-rectángulo representante de otra clase
2.2.2. El dato está incluido en un hiper-rectángulo representante de su misma clase
2.3. Modificación de la clase de los datos
2.3.1. El dato está incluido en un hiper-rectángulo de la misma clase a la cual cambia el dato
2.3.2. El dato está incluido en un hiper-rectángulo que representa a otra clase distinta
2.4. Sub-clasificando muestras
2.5. Realizando varios cambios simultáneamente
3. Actualizando reglas de clasificación
4. Intervención del experto
5. Análisis de rendimiento
5.1. Costo en hallar el hiper-rectángulo (u hoja)
5.2. Re-estructuración del hiper-rectángulo (u hoja)
5.3. Conclusiones
Capítulo 4. Resultados y comparaciones
1. Ejemplos ficticios en 2D
1.1. Configuración de la estrategia
1.2. Dos clases separadas
1.2.1. Descripción del ejemplo
1.2.2. Resultado
1.3. Una clase entremedio de otra
1.3.1. Descripción del ejemplo
1.3.2. Resultado
1.4. Una clase envolviendo parcialmente a otras dos
1.4.1. Descripción del ejemplo
1.4.2. Resultado
1.5. Envolturas sucesivas
1.5.1. Descripción del ejemplo
1.5.2. Resultado
1.6. Tres clases con varias zonas de superposición
1.6.1. Descripción del ejemplo
1.6.2. Resultado
1.7. Doble espiral
1.7.1. Descripción del ejemplo
1.7.2. Resultado
1.8. Una clase que encierra a otra
1.8.1. Descripción del ejemplo
1.8.2. Resultado
1.9. Una clase que encierra a otra de manera más ajustada
1.9.1. Descripción del ejemplo
1.9.2. Resultado
1.10. División en diagonal
1.10.1. Descripción del ejemplo
1.10.2. Resultado
1.11. Dos clases compartiendo un sector del espacio
1.11.1. Descripción del ejemplo
1.11.2. Resultado
1.12. Mezcla total de dos clases
1.12.1. Descripción del ejemplo
1.12.2. Resultado
1.13. Resumen
2. Bases de datos del repositorio UCI
2.1. Bases de datos usadas
2.1.1. Ecoli data set
2.1.2. Glass data set
2.1.3. Haberman's Survival data set
2.1.4. Image segmentation data set
2.1.5. Ionosphere data set
2.1.6. Iris data set
2.1.7. Liver disorders data set
2.1.8. Pima indians diabetes data set
2.1.9. Connectionist bench (Sonar, mines vs. rocks) data set
2.1.10. Statlog (Vehicle silhouettes) data set
2.1.11. Connectionist bench (Vowel recognition – Deterding data) data set
2.1.12. Wine data set
2.1.13. Breast cancer Wisconsin (Original) data set
2.1.14. Forest Covertype data set
2.2. Resultados
3. Comparaciones con otros métodos
3.1. C4.5
3.2. EHS-CHC
3.3. PSO/ACO2
3.4. Resultados
3.5. Análisis de rendimiento
3.5.1. C4.5
3.5.2. EHS-CHC
3.5.3. PSO/ACO2
3.5.4. Resultados
4. Minería incremental
Capítulo 5. Discusión y trabajo a futuro
1. CLUHR
1.1. Índices de separabilidad
1.2. Supervisión de un experto en el dominio del problema
1.3. Adaptabilidad
1.4. Comparaciones
1.5. Trabajando con valores decrecientes para µ
2. Trabajo a futuro
2.1. CLUHR mejorado
2.1.1. Índices
2.1.2. Unión de hiper-rectángulos
2.1.3. Simplificación de reglas
2.1.4. Operaciones con otros dominios de datos
2.1.5. Implementación de una herramienta de supervisión para expertos
Bibliografía