1. Introducción
1.1. Motivación
1.1.1. El problema del rendimiento escolar
1.1.2. Análisis de datos educativos
1.1.3. Aprendizaje Automático, Minería de Datos
1.2. Objetivos
1.3. Alcance
1.4. Metodología
1.4.1. Tipo de investigación
1.4.2. Ciclo de vida de los modelos de Aprendizaje Automático
1.4.3. Conjuntos de datos
1.4.4. Niveles de análisis de datos
1.4.5. Consideraciones éticas
1.5. Contribuciones
1.6. Publicaciones
1.7. Organización de la tesis
2. Marco teórico
2.1. Minería de datos educativos
2.1.1. Campos de aplicación
2.1.2. Objetivos generales de la minería de datos educativos
2.1.3. Tipos de datos usados con frecuencia en el contexto escolar
2.2. Delimitación del término rendimiento académico
2.3. Factores de riesgo del rendimiento
2.4. Abandono y deserción escolar
2.5. Aprendizaje automático
2.5.1. Parámetros e hiperparámetros generales
2.5.2. Modelos supervisados
2.5.2.1. Máquinas de soporte vectorial (SVM)
2.5.2.2. Análisis discriminante lineal
2.5.2.3. Método de Bayes
2.5.2.4. Vecino más cercano, KNN
2.5.2.5. Árboles de decisión
2.5.2.6. Regresión lineal
2.5.2.7. Regresión logística
2.5.2.8. Aprendizaje en conjunto
2.5.2.8.1. ADA Boost
2.5.2.8.2. Gradient Boosting
2.5.2.8.3. XG Boost
2.5.2.8.4. XG Boost Random Forest
2.5.2.8.5. CatBoost
2.5.2.8.6. Random Forests
2.5.2.9. Redes neuronales
2.5.2.10. Descenso de gradiente estocástico, SGD
2.5.2.11. Métricas de evaluación de modelos supervisados
2.5.2.11.1. Matriz de confusión
2.5.2.11.2. Precisión
2.5.2.11.3. Exactitud (Accuracy)3
2.5.2.11.4. Recuerdo (Recall)
2.5.2.11.5. F1 Score
2.5.2.11.6. Especificidad
2.5.2.11.7. Curva ROC
2.5.2.11.8. Error cuadrático medio, MSE
2.5.2.11.9. Error cuadrático medio de la raíz, RMSE
2.5.2.11.10. Error absoluto medio, MAE
2.5.2.11.11. R cuadrado, R2
2.5.2.11.12. N Error cuadrático medio de la raíz, NRMSE
2.5.3. Modelos no supervisados
2.5.3.1. Patrones frecuentes, FP-Growth
2.5.3.2. K-Means
2.5.3.3. Clúster jerárquico
2.5.3.4. Reglas de asociación
2.5.3.5. Análisis de componentes principales
3. Desarrollo
3.1. Fase 1. Comprensión del aprovechamiento escolar
3.1.1. Sobre las escuelas y el rendimiento académico
3.1.2. Sobre los objetivos escolares
3.1.3. Sobre la situación actual
3.1.4. Sobre los objetivos de análisis de datos
3.1.5. Sobre planificación del modelado de datos
3.2. Fase 2. Comprensión de los datos
3.2.1. Recopilación inicial de datos
3.2.2. Descripción del conjunto de datos
3.2.3. Exploración de datos
2.3.3.1. Con base en la cantidad de alumnos
2.3.3.2. Con base en los registros de notas de cada materia
2.3.3.3. Correlaciones
2.3.3.4. Ganancia de Información e Información Mutua
2.3.3.5. Análisis confirmatorio
3.3. Fase 3. Preparación de los datos
3.3.1. Selección de los datos
3.3.2. Limpieza de los datos
3.3.3. Construcción de nuevos datos
3.3.4. Aumento de datos
3.3.5. Reducción de la dimensionalidad
3.3.6. Formato de datos
3.4. Fase 4. Modelado
3.4.1. Generalidades
3.4.2. Parámetros e hiperparámetros
3.4.3. Aprendizaje no supervisado
3.4.4. Aprendizaje supervisado
3.4.4.1. Support Vector Machine
3.4.4.2. Análisis discriminante lineal, LDA
2.4.4.3. Método de Bayes
3.4.4.4. KNN
3.4.4.5. Árbol de decisión, C4.5
2.4.4.6. Regresión lineal
2.4.4.7. Regresión Logística
2.4.4.8. Métodos de aprendizaje en conjunto o ensamblados
2.4.4.9. Redes neuronales
2.4.4.10. Descenso del gradiente estocástico, SGD
3.5. Fase 5. Evaluación
3.5.1. Modelos de clasificación considerando notas intermedias
3.5.2. Modelos de clasificación sin considerar notas intermedias
3.5.3. Modelos de regresión sin considerar notas intermedias
3.5.4. Modelos de clasificación con PCA, Smote ponderado y sin considerar notas intermedias
3.6. Fase 6. Despliegue
4. Resultados
5. Conclusiones, limitaciones y trabajos futuros
5.1. Respecto del objetivo de reconocer las aplicaciones de análisis de datos en los problemas del contexto educativo escolar
5.2. Respecto del objetivo de preparar los datos de acuerdo con la dimensionalidad a un número efectivo de características
5.3. Respecto del objetivo de estudiar comparativamente la idoneidad de los algoritmos de minería de datos
5.4. Respecto del objetivo de establecer parámetros e hiperparámetros que pueden ser apropiados a los datos y los modelos
5.5. Respecto del objetivo de interpretar los resultados del conocimiento descubierto y su eficiencia según métricas pertinentes a los modelos
5.6. Limitaciones y trabajos futuros
6. Referencias