I Introducción y base teórica
1 Introducción
1.1 Objetivos
1.2 Metodología
1.3 Organización de la tesis
2 Características de los datos
2.1 Complejidades intrínsecas de los datos
2.2 Análisis exploratorio de datos
2.3 Comentarios del capítulo
3 Aprendiendo de los datos
3.1 Aprendizaje Automático
3.2 Clasificación de los datos
3.2.1 Modelos de clasificación
3.3 Métricas de evaluación de la calidad predictiva
3.3.1 Métodos de validación
3.4 Comentarios del capítulo
4 Preprocesamiento de los datos
4.1 Desequilibrio de clases
4.1.1 Enfoques a nivel de algoritmos
4.1.2 Métodos sensibles a los costes
4.1.3 Enfoques a nivel de datos
4.2 Reducción de datos
4.2.1 Reducción de instancias (reducción horizontal)
4.2.2 Reducción de características (reducción vertical)
4.3 Zonas ambiguas de un problema
4.4 Comentarios del capitulo
5 Big Data
5.1 Introducción a Big Data
5.2 El modelo MapReduce
5.3 El ecosistema Hadoop
5.3.1 Almacenamiento: Hadoop HDFS
5.3.2 Gestión de recursos y monitorización de trabajos: Hadoop Yarn
5.3.3 Motores de procesamiento: Hadoop MapReduce y Apache Spark
5.4 Profundizando en Apache Spark
5.5 Comentarios del capítulo
II Aportes
6 Big Data no balanceado
6.1 Clasificación no balanceada de Big Data
6.2 Synthetic Minority Oversampling TEchnique (SMOTE) escalable para la clasificación no balanceada en Big Data
6.3 Análisis del comportamiento de SMOTE-BD
6.4 Un análisis de soluciones locales y globales para abordar la clasificación
no balanceada de Big Data
6.5 Comentarios del capítulo
7 Reducción escalable en escenarios Big Data
7.1 Condensación de datos en Big Data
7.2 FDR2-BD: Una herramienta rápida de recomendación de reducción
de datos para problemas de clasificación de Big Data tabular
7.2.1 Descripción y flujo de trabajo
7.2.2 Resumen de la implementación técnica
7.3 Estudio experimental
7.3.1 Entorno de trabajo
7.3.2 Estudio de reducción del volumen de datos
7.3.3 La influencia de la selección de características en la reducción del volumen de datos
7.3.4 Detalles de la condensación de datos y evaluación del rendimiento
7.3.5 Evaluación de la escalabilidad
7.4 Comentarios del capítulo
8 Caracterización del solapamiento en conjuntos Big Data
8.1 Caracterización de un conjunto de datos. Particionamiento del espacio de características
8.2 GridOverlap-BD, hacia la caracterización escalable del solapamiento en un conjunto Big Data
8.2.1 Descripción y flujo de trabajo
8.2.2 Comentarios de la implementación técnica
8.3 Estudio experimental
8.3.1 Entorno experimental
8.3.2 Efectividad en la distinción de Áreas puras y ambiguas
8.3.3 Grado de solapamiento
8.3.4 Comparando el desempeño del método de base contra los enfoques para tratar el solapamiento
8.4 Comentarios del capítulo
III Casos de uso
9 Emergencias humanitarias
9.1 Descripción de los conjuntos de datos de Emergencias Humanitarias (EH)
9.2 Análisis exploratorio de los datos
9.3 Empleo de técnicas de sobremuestreo y caracterización de los datos
9.4 Comentarios del capítulo
IV Conclusiones
10 Conclusiones y trabajo a futuro
Bibliografía
Apéndices