Análisis y diseño de técnicas de preprocesamiento de instancias escalables para problemas no balanceados en Big Data

Basgall, María José

Título:
Análisis y diseño de técnicas de preprocesamiento de instancias escalables para problemas no balanceados en Big Data: aplicaciones en situaciones de emergencias humanitarias
Autor:
Basgall, María José
Otros autores / Colaboradores:
 Naiouf, Ricardo Marcelo; [ Director/a]  Fernández Hilario, Alberto; [ Director/a] 
Temas:
BIG DATAAPRENDIZAJE AUTOMÁTICO
URL:
https://doi.org/10.35537/10915/135846,
Palabras clave:
desbalance de datos, 
Nota de tesis:
Tesis (Programa de Doctorado en Tecnologías de la Información y la Comunicación) - Universidad Nacional de La Plata. Universidad de Granada, 2022.
Extensión:
1 archivo (4,3 MB) : il. col.
Resumen:
En la actual era de la información, el análisis asociado al escenario de Big Data permite la extracción de conocimiento de una vasta fuente de información. Una de las cuestiones de interés para extraer y explotar el valor de los datos, es adaptar y simplificar los datos en crudo que son entrada para el algoritmo de aprendizaje, lo que se conoce como Smart Data. A pesar de la importancia de lo anterior, y su aplicación en problemas estándar, el análisis de la calidad de los datos de los conjuntos Big Data es casi un territorio inexplorado. En este sentido, un estudio exhaustivo de las características de los datos, junto con la aplicación de las técnicas de preprocesamiento adecuadas, se ha convertido en un paso obligatorio para todos los proyectos de Ciencia de Datos, tanto en la industria como en el mundo académico, y en especial aquellos asociados con análisis en Big Data. En consecuencia, el eje principal de investigación de la presente tesis abordó el preprocesamiento distribuido y escalable de conjuntos Big Data de clasificación binaria, con el fin de obtener el ya citado Smart Data. Teniendo en cuenta el impacto que tienen las características intrínsecas de los datos en el rendimiento de los modelos de aprendizaje, así como la escasa cantidad de soluciones existentes para escenarios Big Data, en esta memoria de tesis se presentaron tres propuestas para la identificación y/o el tratamiento de las siguientes características: (a) datos no balanceados; (b) redundancia; (c) alta dimensionalidad; y (d) solapamiento. Respecto a los datos no balanceados, se presentó SMOTE-BD, un SMOTE para Big Data basado en un estudio sobre las particularidades necesarias para que su diseño sea totalmente escalable, y que además su comportamiento se ajuste lo más fielmente posible a la técnica secuencial del estado del arte (tan popular en escenarios Small Data). Asimismo, se introdujo una variante de SMOTE-BD, denominada SMOTE-MR, que sigue un diseño tal que procesa los datos localmente en cada nodo. Dado que no existe una única técnica que siempre sea la que genere los mejores resultados, cuando se tiene que equilibrar las clases de un problema, se suelen aplicar una serie de ellas. Es por esto que nuestro aporte toma mayor relevancia puesto que, hasta el momento de su desarrollo, sólo estaban disponibles las soluciones triviales basadas en muestreo aleatorio. En relación a la redundancia y a la alta dimensionalidad de los datos, se presentó FDR2-BD, una metodología escalable para reducir (o condensar) un conjunto Big Data de manera dual vertical y horizontal, es decir, reducción de atributos y de instancias, con la premisa de mantener la calidad predictiva respecto de los datos originales. La propuesta se basa en un esquema de validación cruzada donde se realiza un proceso de hiperparametrización que, además, soporta el manejo de conjuntos de datos no balanceados. FDR2-BD permite conocer si un conjunto de datos dado es reducible manteniendo el poder predictivo de los datos originales dentro de un umbral que puede ser establecido por la persona experta en el dominio del problema. Por consiguiente, nuestra propuesta informa cuáles son los atributos de los datos de mayor importancia y cuál es el porcentaje de reducción uniforme de instancias que se puede llevar a cabo. Los resultados mostraron la fortaleza de FDR2-BD obteniendo valores de reducción muy elevados para la mayoría de los conjuntos de datos estudiados, tanto en lo que respecta a la dimensionalidad como a los porcentajes de reducción de instancias propuestos. En términos concretos, se alcanzó alrededor del 70 % de reducción de las características y 98 % de reducción de las instancias, para un umbral de pérdida predictiva máxima aceptada del 1 % del cual, en algunos casos, la calidad predictiva se mantuvo igual a la del conjunto original. Esta información condensada provee la ventaja de poder ser usada en infraestructuras más sencillas que las dedicadas para el procesamiento de Big Data, además de habilitar su uso con técnicas de explicabilidad/interpretabilidad como LIME o SHAP, cuya complejidad computacional es al menos O(n2 x d), con n y d número de instancias y variables respectivamente. En cuanto al solapamiento, se presentó GridOverlap-BD, una metodología para la caracterización escalable de problemas Big Data de clasificación. La propuesta se apoya en el particionamiento del espacio de características basado en rejilla. GridOverlap-BD permite identificar o caracterizar las áreas del problema en dos tipologías: zonas puras y solapadas. Además, se introdujo una métrica de complejidad derivada de aplicar GridOverlap-BD, con foco en cuantificar el solapamiento presente en los datos. De la experimentación realizada, se observó que tanto la caracterización de las zonas de un problema como la cuantificación del grado de solapamiento se llevaron a cabo de manera efectiva para los conjuntos de datos del entorno experimental. Ello implica una aproximación pionera escalable y totalmente agnóstica (independiente del modelo) para la caracterización de las instancias de un problema Big Data, y la estimación de su complejidad de cara al análisis de los resultados posteriores del modelado. Todas las propuestas fueron desarrolladas utilizando el framework Apache Spark, dado que se ha convertido en un estándar de facto para el procesamiento de Big Data. Además, las implementaciones se encuentran disponibles en repositorios de público acceso, en aras de facilitar la reproducibilidad de los resultados, así como la posible extensión de las aproximaciones diseñadas en la presente tesis doctoral para cualquier investigador interesado.

Puede solicitar más fácilmente el ejemplar con: TES 22/37

Ver índice

La edición contiene los siguientes documentos electrónicos para descargar:

En este momento no hay ningún ejemplar disponible.


Disponibilidad Actual Para Préstamo: 0 Disponibilidad Actual Para Sala de Lectura: 0 Cantidad Actual de Reservas: 0 Cantidad Actual de Préstamos: 0

Valoración


Comentarios (0)