Resumen | Hoy en día hay varias alternativas Open Source para desplegar catálogos de datos abiertos y que cualquier tipo de entidad de carácter público o privado ponga en marcha iniciativas de datos abiertos y facilite el acceso transparente a los conjuntos de datos de esa entidad. Sin embargo, la ingestión de nuevos conjuntos de datos es costosa ya que requiere habitualmente la inserción manual de los metadatos (título, resumen, tema, extensión temporal, extensión espacial, ...).
El objetivo del TFG es proporcionar una aplicación web que permita a un usuario seleccionar conjuntos de datos, integrar algunas utilidades de Inteligencia Artificial (IA) para inferir metadatos y automatizar su ingestión en el catálogo. Cuando se va a dar de alta un conjunto de datos nuevo en el catálogo y está disponible en un formato procesable como CSV o RDF, es posible que se pueda inferir los metadatos (o gran parte de ellos) a partir del contenido (nombre de columnas/propiedades, valores de columnas propiedades, etc.).
Dentro del contexto del TFG se plantean experimentos de integración de datos abiertos no gubernamentales disponibles en plataformas de ciencia ciudadana y su ingestión en catálogos de datos abiertos desplegados con software de tipo CKAN.
Respecto a los requisitos tecnológicos, el lenguaje de programación principal sería Python. Habría que utilizar también RDF (para las descripciones), SPARQL para consultar el RDF, y alguna herramienta de IA para inferir de forma automática el contenido de las descripciones.
|