Retour sur le séminaire & atelier Technique GAIA DATA 2024
Le séminaire & atelier technique GAIA Data, organisé par l’e-Infrastructure de Recherche (IR) Data Terra s’est tenu du mardi 12 novembre après-midi (14h) au vendredi 15 novembre à midi, à Toulouse. Il a constitué un point d’étape à 2 ans et demi et a eu pour objectif de rassembler les communautés scientifiques et techniques contribuant au développement du projet Equipex+ GAIA Data et regroupé près de 80 correspondants scientifiques et techniques parmi les 21 partenaires qui portent le projet.
L’évènement s’est notamment concentré sur :
- Les enjeux que les PEPR soulèvent en termes de modèles économiques, de pérennité des processus et de protection des données ;
- Deux défis scientifiques en lien avec les enjeux de société, d’une part l’adaptation des villes au changement climatique, d’autres part le continuum terre-mer ;
- Les changements complexes dans la production, la distribution et l’archivage des données de par la diversité des communautés et des formats de données.
Une session a été consacrée aux présentations des états d’avancement de chaque WP du projet :
- WP1 – Coordination générale : ce volet a présenté les points notables et décisions prises au cours de l’Assemblée Générale et de la réunion annuelle du consortium avec l’ANR : la révision des annexes financières, l’intégration du Drocc (Datacenter régional Occitanie) dans le consortium, l’audit à mi-parcours de l’ANR en 2025. Un point rapide a également été fait sur les ressources humaines ainsi que sur la coordination technique globale.
- WP2 – Architecture et infrastructure : la présentation a détaillé l’avancement des travaux pour chaque tâche, en mettant en avant la finalisation du déploiement du SSO et la connexion des premiers sites au L3VPN.
- WP3 – Services transversaux : après un rappel de l’architecture globale du projet, un bilan des progrès a été présenté, incluant le déploiement du MTEP (processus de Moissonnage, Transformation, Enrichissement et Persistance), l’appel d’offres pour le portail de découverte, et l’étude du grand modèle de langage (Large Language Model – LLM) de l’IA pour le chatbot GAIA Data.
- WP4 – Accompagnement utilisateurs : les responsables de pôles ont surtout discuté de la simplification de l’interface utilisateur pour JupyterLab, avec des propositions d’améliorations prenant en compte les exigences de sécurité.
- WP5 – Collaborations et partenariats : les travaux récents ont porté sur l’identification des projets connexes, les liens avec le WP4 sur les cas d’usage et la collecte des besoins utilisateurs.
Les collaborations avec les projets connexes liés à GAIA Data ont été présentées. Parmi ces projets figurent notamment les PEPR suivants :
- One Water, sur les ressources en eau et la transition durable des territoires ;
- FairCarboN, portant sur le rôle potentiel des écosystèmes continentaux dans l’atténuation des effets du changement climatique ;
- Risques (IRiMa), dédié à l’élaboration de nouvelles stratégies pour la gestion des risques et des catastrophes ;
- Sous-sol bien commun, sur une utilisation responsable et durable du sous-sol ;
- TRACCS, centré sur la transformation de la modélisation du climat pour les services climatiques ;
- BRIDGES, sur une gestion durable des ressources marines de l’océan Indien ;
- NUMPEX, travaillant sur la conception et développement d’outils pour équiper les machines exascales ;
- FORESTT, qui explore la transition socio-écologique des systèmes forestiers.
Une table ronde sur les réponses aux défis transversaux que rencontre GAIA Data a exploré l’intégration de données hétérogènes. Divers exemples ont été présentés comme la mission SWOT ou le projet VolcPlume (Projet FAIR-EASE), et des solutions proposées telles le protocole S3 et l’environnement Galaxy permettant de surmonter les défis d’interopérabilité et de gestion de grands volumes de données. Les mesures sismologiques à partir de fibres optiques (mesure acoustique distribuée – Distributed Acoustic Sensing, DAS) et les réseaux denses de capteurs constituent par exemple des sources de données géophysiques massives. Les apports potentiels de l’Intelligence Artificielle (IA), notamment dans le cadre des PEPR TRACCS et CLUSSTER, ont également été mis en avant. Ces discussions ont par ailleurs soulevé des interrogations sur les modèles économiques à développer et les conditions d’accès aux données.
Plusieurs ateliers en petits groupes ont été organisés autour de personae, qui représentent des profils d’utilisateurs potentiels pour lesquels des services sont conçus. L’objectif de ces sessions visent à adopter une méthodologie orientée utilisateurs afin d’adapter les développements techniques aux besoins identifiés. La restitution des ateliers axés sur les thèmes « Urbain » et « Continuum Terre-Mer » a mis en lumière les besoins, préoccupations et recommandations des différents personae.
Enfin l’atelier technique a pu aborder plusieurs sessions thématiques à travers des présentations et des échanges autour :
- GEODES : Un portail du CNES dédié à l’observation de la Terre a été réalisée.
- Galaxy : Une session a été consacrée à la présentation de Galaxy et à la création d’un groupe de travail dédié pour explorer différents scénarios d’architecture, les liens avec des infrastructures nationales et internationales, ainsi que les développements spécifiques prévus d’ici 2026.
- MESONET : La présentation de MESONET a mis en avant les avancées et les projets en cours avec GAIA Data, notamment le développement d’une fédération de stockage iRODS pour les données tièdes et des initiatives renforçant la sécurité pour l’homologation des systèmes.
- STAC: Une discussion sur la spécification STAC (SpatioTemporal Asset Catalogs) a permis de clarifier son intégration future dans le méta-catalogue de GAIA Data, en privilégiant son utilisation en sortie du MTEP pour enrichir les métadonnées, tout en insistant sur la normalisation et l’interopérabilité à développer via un groupe de travail dédié.
- IA/LLM: Une étude a été menée sur la réalisation d’un portail interactif de découverte de données basé sur un grand modèle de langage, permettant des requêtes complexes et un raffinement itératif.
les présentations détaillées sont disponibles sur demande : contact(at)gaia-data.org