Normalización e identificación de objetos duplicados sobre contenido extraído de la web

Mastronardi, Gonzalo

Título:
Normalización e identificación de objetos duplicados sobre contenido extraído de la web
Autor:
Mastronardi, Gonzalo
Otros autores / Colaboradores:
 Fernández, Alejandro; [ Director/a]  Firmenich, Sergio Damián; [ Codirector/a] 
Temas:
WEB SEMÁNTICAFRAMEWORKS
URL:
http://sedici.unlp.edu.ar/handle/10915/165308,
Palabras clave:
calidad de datos, 
Nota de tesis:
Tesina (Licenciatura en Sistemas) - Universidad Nacional de La Plata. Facultad de Informática, 2024.
Extensión:
1 archivo (716,1 kB) : il. col.
Resumen:
En la actualidad, la web se presenta como la principal fuente de información disponible. Esta información, distribuida entre los miles de sitios web, se muestra de manera legible para los usuarios, pero carece de estructura y significado para las máquinas. La concepción de la web semántica surge como una solución para superar esta limitación, incorporando significado a los datos mediante anotaciones semánticas provenientes de DBpedia. DBpedia es un proyecto que transforma la información de Wikipedia en datos estructurados, otorgando accesibilidad y utilidad a la información de manera que sea útil para las máquinas. A pesar de estos avances, la adopción de la web semántica es lenta, y la construcción de aplicaciones que utilicen los datos web implica su extracción de manera manual a través de diversas herramientas desarrolladas para ello. Estas herramientas no son del todo precisas, por lo que emerge la necesidad de llevar a cabo un proceso de limpieza o normalización de datos para trabajar con ellos fiablemente. Para abordar este problema, se desarrolló un framework de normalización de objetos, con el propósito de corregir los datos extraídos de los objetos de información y asegurar una fuente de datos fiable. Posteriormente, se implementó un segundo framework de identificación de duplicados, es decir, aquellos que se correspondan al mismo objeto en la vida real. De este modo, logramos recolectar, estructurar y normalizar información que se encontraba dispersa en la web, identificando potenciales duplicados para finalmente consolidar un único objeto con la máxima cantidad de información posible, otorgándole sentido a través de la identificación de manera precisa a un objeto correspondiente a la DBpedia.

Puede solicitar más fácilmente el ejemplar con: TES 24/04

Ver índice

La edición contiene los siguientes documentos electrónicos para descargar:

En este momento no hay ningún ejemplar disponible.


Disponibilidad Actual Para Préstamo: 0 Disponibilidad Actual Para Sala de Lectura: 0 Cantidad Actual de Reservas: 0 Cantidad Actual de Préstamos: 0

Valoración


Comentarios (0)