© Pixabay

Les services proposés par GAIA Data

Les principaux services répondent à trois principaux enjeux

Data Terra, PNDB et CLIMERI-France ont pour vocation d’harmoniser les services de données entre les différents domaines du système Terre et d’en généraliser le champ d’application. Les services seront structurés autour des éléments suivants :

#1 Évolution vers une infrastructure distribuée de services

  • Fédérer et de renforcer à l’échelle nationale les compétences dans les domaines des sciences des données, des méthodes d’analyse et des modèles et plus généralement en science de l’ingénieur et en « data scientists »

Le projet GAIA Data génèrera une transformation numérique à de nombreux niveaux. Il se traduira notamment par un renforcement des processus de mutualisation autour de plateformes de données et de services distribués déployés et supportés par un continuum d’infrastructures centralisées et décentralisées.

#2 Structure en composition de l’équipement pour renforcer et interconnecter les 8 sites existants

Les organismes partenaires ont développé, dans leurs domaines de compétences propres, des CDS, proposant des services éprouvés allant du support à l’observation à la valorisation des données, mais aussi des plateformes d’analyse, de traitement et de simulation mis en œuvre à la demande ou exploités régulièrement.

huit sites gaia data

Schéma des Centres de Données et Service (CDS) Gaia-data et liaisons Renater. Les 8 CDS « ossature » joueront un rôle central pour l’accès aux données et aux services de la plateforme. Ils disposent de la capacité de gérer de gros volumes de données, de moyens de calcul significatifs, et d’experts de la donnée et de l’informatique des différentes thématiques de GAIA data. Les couleurs illustrent les expertises actuelles.

  • Renforcer les capacités d’échanges via des réseaux et des protocoles de communication sécurisés, en coopération avec Renater, de configurer des dispositifs de synchronisation, de prévoir des espaces de stockage tampon (buffer, câche) afin d’optimiser la réduction et les traitements croisés de données.
  • La mise en œuvre de l’infrastructure de services distribuées s’appuiera sur huit sites composés d’une part de data centres importants hébergés par des institutions comme le CNES, IFREMER, BRGM, CINES, IPGP, CNRS, IGN et d’autre part des structures mixtes de type “mésocentres” (ESPRI/IPSL, ICARE/Univ. Lille, GRICAD/Grenoble, UNISTRA/Strasbourg…) hébergeant des CDS des pôles de données.

#3 Volumes croissants de données et évolutions technologiques permanentes

  • Fournir un accès facilité à la diversité et à la richesse des données de qualité et scientifiquement validées et traçables, ainsi qu’à leurs traitements de manière holistique
  • S’appuyer sur l’expertise acquise par le développement de méthodes de collecte et de qualification, de traitement, de distribution de données, qu’elles soient issues de missions spatiales ou via les IR d’observation de simulations climatiques ou d’inventaires et de suivi d’indicateurs de biodiversité

Les fortes volumétries et la diversité des données nécessitent de modifier les pratiques de recherche des utilisateurs. Il n’est plus envisageable de télécharger de tels volumes de données pour les traiter ensuite localement. Il est nécessaire aujourd’hui d’optimiser et d’accélérer la logistique de ces données et leur placement tout au long des chaines de traitement, d’analyse et de modélisation en fonction des ressources et des types de ressources auxquelles les utilisateurs ont accès. Cela passe par fédérer et mutualiser ressource de stockage, de calcul et de communication au travers d’un continuum de services ouverts et interopérables, distribués et supportées par des infrastructures distribuées bien dimensionnées et gérées.

  • Grâce aux Virtual Analysis Platforms (VAPs), les utilisateurs experts en données pourront mettre au point à distance leurs algorithmes en optimisant le placement des données et pourront visualiser de façon interactive et quasi-simultanée les résultats obtenus.
  • Les VRE, Virtual Research Environment, permettront à des utilisateurs moins experts (en informatique ou en traitement et analyse de données) de paramétrer, d’orchestrer et d’exécuter des chaines (workflows) déjà qualifiées et partagées de traitements, d’analyse et de modélisation de données, et de visualiser et de tracer la provenance des données tout au long de ces chaines (en entrée, au cours de leur transformation, et en sortie). Cela permettra d’élargir l’utilisation de GAIA-Data à des communautés scientifiques, institutionnelles ou privées beaucoup plus larges.
  • Ce projet propose une alternative aux usages des services Cloud proposés par les GAFAM en apportant des services orientés et adaptés en phase avec les pratiques de recherche de la communauté scientifique, de niveau équivalent ou supérieur, prenant en compte l’ensemble du cycle de la donnée de manière intégrée et garantissant la souveraineté, le respect de la propriété des travaux et de leurs valeurs ajoutées, ainsi qu’une réutilisation optimale et traçable des produits et informations dérivés.

#4 Mises en œuvre de solutions innovantes et de partenariats structurants et durables

Faciliter la découverte, l’utilisation et la valorisation de données multi-source par des communautés qui peuvent être très éloignées de celles qui les ont produites et pour des applications qui peuvent être très différentes du contexte pour lequel elles ont été acquises. Ceci sera rendu possible par le co-développement et la mise en œuvre :

  •  d’un portail de données et de connaissances bâti sur un langage commun entre toutes les parties prenantes,
  • d’une grille de données permettant de masquer/abstraire la distribution géographique,de données et les modèles de stockage et de données répartis dans les Centres de données et de services,
  • d’une DOA ‘Digital Object Architecture) de services de calcul distribués de type Cloud permettant d’accélérer de manière transparente et continue les chaines de traitement et d’analyse, ainsi que la logistique des données, au dans et au travers des CDS. Cette architecture DOA permettra de s’interfacer avec des services disponibles et/ou de les co-développer et co-adapter conjointement avec les centres nationaux et régionaux associés au projet et avec lesquels GAIA-Data s’articulera.