Capítulo 1 Introducción
Motivación
Objetivos
Objetivo general
Objetivos secundarios
Escenario de trabajo
Ingesta masiva de registros
Estructura de la tesis
Capítulo 2 - Marco teórico
Introducción
Repositorios digitales
Repositorios institucionales
Repositorios institucionales en Argentina
Metadatos
Registro de metadatos
Esquema de metadatos
Dublin Core
Perfiles de aplicación
Identificadores persistentes
Handle System
DOI (Digital Object Identifier)
ORCID
Interoperabilidad vía OAI-PMH
Interoperabilidad entre esquemas de metadatos
Mapeo de metadatos
Capítulo 3 - Detección de registros académicos duplicados
Introducción
Deduplicación de registros
Heterogeneidad de los datos
Deduplicación de registros académicos
Heterogeneidad en los metadatos de distintas fuentes
Uso de identificadores persistentes
Técnicas para la detección de registros duplicados
Modelos probabilísticos de emparejamiento
Aprendizaje supervisado y semi supervisado
Técnicas basadas en aprendizaje activo
Técnicas basadas en distancia
Enfoques basados en reglas
Aprendizaje sin supervisión
Metodologías para optimizar la cantidad de comparaciones
Soluciones existentes
Capítulo 4 - Análisis y desarrollo
Introducción
Desarrollo de un primer prototipo
Solución propuesta
Núcleo de la herramienta
Esquema de metadatos genérico
Normalización de la tipología de cada registro
Engine y algoritmo de comparación
Reglas
Resultado asociado a la evaluación de una regla
Tipos de reglas
Elección del conjunto de reglas a evaluar
Lógica de comparación de las reglas
Comparación de metadatos
Comparación de autores
Comparación de títulos
Comparación de fechas
Auxiliar utils
Funciones de similitud entre strings
Distancia Levenshtein
Distancia Jaro-Winkler
Metaphone
Función utilizada
Obtención de identificadores
Resultado de una deduplicación
Mapeo de metadatos
Funcionamiento
Combinación de columnas
Capítulo 5 - Desarrollo de la aplicación web
Introducción
Tecnologías utilizadas
Aplicación back-end
Extensiones al modelo
Tarea de deduplicación
Tarea de mapeo
Endpoints principales de la API REST
Aplicación front-end
Interfaz de usuario de la herramienta de deduplicación
Pantalla de inicio
Formulario para iniciar una tarea
Detalle de una tarea
Listado de tareas
Interfaz de usuario del módulo de mapeo
Formulario para iniciar una tarea
Detalle de una tarea
Listado de tareas
Capítulo 6 - Proceso de importación y resultados obtenidos
Introducción
Proceso para importaciones masivas
Obtención de registros desde un repositorio
Mapeo de metadatos a formato genérico
Deduplicación con registros del repositorio destino
Reconciliación de metadatos
Mapeo a formato esperado por el repositorio destino
Correcciones sobre los metadatos
Obtención de los objetos digitales asociados a cada registro
Generar archivo de importación y carga del mismo
Casos de aplicación
SCOPUS
Memoria Académica
CONICET Digital
Capítulo 7 - Conclusiones y trabajos futuros
Conclusión
Trabajos futuros
Mejorar performance de la herramienta de deduplicación
Expandir módulo de comparación de autores
Enriquecimiento de registros detectados como duplicados
Explorar enfoque de Aprendizaje Automático
Incorporar funcionalidad de deduplicación dentro del sistema de repositorio
Bibliografía