Convergence Big Data-IA-HPC au seuil exaflopique

La simulation scientifique recourt de plus en plus à l’Intelligence Artificielle (IA) pour analyser des données dont les volumes, eux, ne cessent d’augmenter, exigeant au passage toujours plus de ressources en Calcul Haute Performance (HPC). Difficile pourtant d’organiser ce triptyque Big Data-IA-HPC en raison de l’enchevêtrement des différentes piles logicielles de ces différents domaines. Financé par le programme EuroHPC Recherche et Innovation, le projet ACROSS ambitionne de construire une plateforme de convergence et d’élaborer des mécanismes capables de gérer des flux inter-piles aussi complexes à des échelles jusqu’alors inconnues. Une des contributions d’Inria au projet s’appelle Damaris : un intergiciel innovant conçu pour la gestion des données et des entrées/sorties.


© Inria / Photo H. Raguet

Les simulations scientifiques brassent des masses de données devenues vertigineuses. Leur traitement est l’apanage de supercalculateurs pouvant effectuer 1015 opérations en virgule flottante à la seconde. Atteint pour la première fois en 2008, cet ordre de grandeur s’appelle le petaFLOPS. Prochaine étape : l’exaFLOPS. Soit 1018 opérations. Mais ce n’est pas pour tout de suite. En attendant, le monde se prépare à une phase intermédiaire : le passage aux 500 petaFLOPS. Première machine du genre en Europe, LUMI doit démarrer cet automne à Kajaani, en Finlande.

Pendant que la course aux FLOPS fait rage, une révolution plus discrète s’invite du côté des algorithmes. Car en matière de simulation, l’apprentissage machine et l’apprentissage profond s’avèrent de plus en plus efficaces pour détecter des motifs pertinents dans les jeux de données. Ce qui permet d’accélérer le traitement et de découvrir de nouvelles connaissances.

 

Débuté en mars 2021 pour une durée de trois ans, le projet ACROSS s’intéresse aux nouveaux défis posés par cette convergence Big Data-IA-HPC. Coordonné par la Fondation Links, le consortium rassemble 13 partenaires académiques et industriels issus de domaines allant de l’informatique à la météorologie : Bull SAS, IT4IVSB, CINECA, Avio Aero, ECMWF, CINI, Inria, Sintef, Neuropublic, Deltares, MPI-M et Morfo. Budget total : 8 millions d’euros, dont la moitié financée par l’UE.

 

Double défi

Le projet se situe au croisement de trois mondes, résume Gabriel Antoniu, responsable de KerData, une équipe de recherche sur le calcul haute performance au centre Inria de Rennes*. Chacun de ces mondes possède sa propre pile logicielle composée de couches successives : le bas niveau pour gérer le matériel, la couche intermédiaire pour administrer la ressource et, au-dessus, la couche applicative. Chaque pile est développée séparément. Elle comporte ses propres problématiques pour l’ordonnancement des tâches, le partage des données, la gestion de la mémoire, etc. Mais pour l’instant, les trois piles communiquent difficilement entre elles. Le défi pour nous consiste à organiser cette communication et à construire une plateforme logicielle capable de mettre en œuvre des workflows complexes traversant toutes ces piles. Plus exactement, c’est d’ailleurs un double-défi. En effet, non seulement nous devons orchestrer des charges applicatives hybrides, mais l’infrastructure elle-même devient hybride, car les supercalculateurs sont de plus en plus connectés à des clouds et des appareils du edge computing.

Préfigurant cette évolution, une collaboration inter-équipe a démarré depuis un moment entre les chercheurs de KerData et leurs collègues en data mining de Lacodam. “Nous avons décidé d’étudier ensemble la façon de gérer efficacement des workflows en IA sur une architecture cloud et edge. Nous avions comme cas d’usage une application d’alerte sismique. Dans le fond, cela revient à faire de la classification de signal à partir des informations remontées par les capteurs sismiques ainsi que les stations GPS, et à corréler ces données avec l’historique des relevés pour effectuer de la prédiction. Il nous fallait construire un algorithme à deux niveaux pour qu’une première partie des données soit traîtée directement sur les capteurs et que l’analyse globale se fasse sur des serveurs cloud.” Un travail d’autant plus satisfaisant qu’il a donné lieu à une publication récompensée d’un Outstanding Paper Award à la conférence AAAI en 2020. Le quotidien Le Monde l’a aussi sélectionnée dans sa rubrique des résultats scientifiques majeurs de la même année.

 

Emprisonner le dioxyde de carbone

Quant au projet ACROSS en lui-même, il s’organisera autour de trois cas d’usage. Le premier vise à combiner l’intelligence artificielle aux approches multi-physiques traditionnelles dans le domaine de la simulation des moteurs aéronautiques. Le deuxième porte sur l’utilisation d’accélérateurs matériels pour augmenter la vitesse de traitement des analyses météorologiques à grande échelle. Le troisième s’intéresse à la séquestration du dioxyde de carbone. Autrement dit : essayer de capter le CO2 rejeté dans l’atmosphère pour ensuite le stocker sous terre, par exemple dans les anciens puits de pétrole. “C’est sur ce cas d’usage qu’Inria va se concentrer. Il requiert le développement de workflows entre les différentes piles logicielles pour effectuer de la simulation de sous-sol à haute précision et analyser de gros volumes de données sismiques.” Les expérimentations se dérouleront principalement sur les calculateurs d’IT4I (République tchèque) et CINECA (Italie), ainsi que sur une troisième infrastructure sur laquelle l’entreprise Bull teste des processeurs neuromorphiques. Cette technologie émergente s’inspire de l’architecture du système nerveux.

Autre contribution d’Inria : Damaris, un intergiciel conçu pour améliorer la gestion des données et des entrées/sorties. Son but principal : désengorger le calculateur dans la phase d’écriture de données. Avec des machines où parfois un million de cœurs se retrouvent à écrire des données dans un million de fichiers de façon quasi-synchrone à chaque itération, la pression sur le système de stockage devient trop forte. Le calcul ralentit car les cœurs doivent attendre que toutes les données soient écrites avant d’entamer l’itération suivante. La solution avec Damaris consiste à spécialiser certains cœurs uniquement pour l’écriture pendant que les autres continuent de n’effectuer que du calcul. Cette approche autorise un bien meilleur passage à l’échelle. Cerise sur le gâteau : la ressource allouée à l’écriture peut accessoirement servir à autre chose. “Dans le passé, nous l’avons utilisée pour visualiser aussi les données durant la simulation. À présent, nous voulons l’exploiter pour effectuer de l’analyse in-situ en utilisant de l’apprentissage machine.” Dans ce cas de figure, la donnée en sortie serait dirigée vers un réseau de neurones au fur et à mesure de sa production.

 

Changement stratégique en HPC

D’une façon plus général, c’est un changement fondamental de la stratégie européenne vis-à-vis du HPC qui s’amorce. Inria siège à l’ETP4HPC, une association qui conseille l’UE sur les priorités scientifiques dans ce domaine. En 2020, l’organisation a produit un agenda stratégique de recherche (SRA) dont Gabriel Antoniu était corédacteur. “L’idée clé, c’est l’émergence du concept de continuum numérique. En deux mots, nous passons d’une vision centrée sur les grosses machines à une vision où l’on voit se développer des supercalculateurs connectés à des clouds et à des ressources edge. Cette évolution intervient dans des contextes très variés où il faut orchestrer des workflows complexes. Dans le même ordre d’idée, il existe aussi l’Initiative TransContinuum (TCI) qui œuvre à rapprocher différentes communautés : pas seulement le HPC, l’IA et le Big Data, mais également la cybersécurité, la 5G, etc. Il s’agit de mettre en exergue quelles seront les applications types, quels seront leurs besoins et comment faire évoluer les infrastructures en conséquence. Le projet ACROSS est très en phase avec cette vision stratégique et l’évolution du HPC vers ce continuum numérique.

 

This project has received funding from the European High-Performance Computing Joint Undertaking (JU) under grant agreement No 955648. The JU receives support from the European Union’s Horizon 2020 research and innovation programme and Italy, France, Czech Republic, United Kingdom, Greece, Netherlands, Germany, Norway.

Les commentaires sont clos.