1. Introducción
1.1. Motivación
1.2. Objetivos
1.3. Trabajos relacionados
2. Conceptos preliminares
2.1. K-Means
2.1.1. Selección de centroides
2.1.2. El algoritmo
2.1.3. Problemas adicionales en la agrupación K-Means
2.1.4. Paralelismo de datos y resultados
2.2. Bisecting K-Means
2.3. Mezclas Gaussianas
2.4. Métodos de validación interna
2.4.1. Índice Silhouette
2.4.2. Medición de la validez del clúster a través de la correlación
2.4.3. Visualización de agrupamientos por su matriz de similitud
2.4.4. Evaluación no supervisada de la agrupación jerárquica
2.4.5. Determinación del número correcto de clústeres
3. Marco experimental
3.1. Origen de los datos
3.1.1. Descripción del conjunto de datos
3.1.2. Detalles del atributo Clasificación
3.2. Herramientas utilizadas para la exploración de datos y ensayos
3.2.1. Google Colab
3.2.2. PySpark
3.2.2.1. MLlib
3.2.3. Formato Parquet
3.2.4. QlikView
4. Preprocesamiento de datos
4.1. Selección de atributos
4.2. Limpieza y preparación de datos
4.2.1. Generación de vectores de características
4.3. Conjuntos de datos
4.4. Matriz de correlación
5. Experimentación
5.1. Tiempos de ejecución
5.2. Validación de los clústers
5.2.1. Índice Silhouette
5.2.1.1. Selección del número de agrupaciones según el índice Silhouette
5.2.2. Matriz de evidencia.
5.2.3. Matriz de similitud ideal
5.2.4. Coincidencia en la clasificación de casos por los 3 modelos
5.2.5. Distribución de casos por modelo, agrupación y predicción
5.3. Análisis de agrupamientos
5.3.1. Distribución de los casos por atributo
5.3.1.1. Distribución del atributo edad
5.3.2. Inclusión de las provincias
6. Conclusiones
Bibliografía