Tranche de calcul GRID5000 n2 (2018, axe 2)

Opération au titre de l’année : 2018
Titre : Tranche de calcul Grid5000
Site(s) : Inria/LORIA
Porteur(s) : Lucas Nussbaum (MCF, Université de Lorraine, LORIA)
Financement : 642 k€

Contexte

SILECS/Grid’5000 est une infrastructure de recherche flexible et de large échelle pour le support de la démarche expérimentale dans tous les domaines de l’informatique, et en particulier pour les systèmes parallèles et distribués tels que les clouds, le HPC, le Big Data, l’IA ou les réseaux. Via une pile logicielle dédiée à l’expérimentation, Grid’5000 permet aux chercheurs en informatique de réaliser des expériences à tous les niveaux de la pile logicielle. Comparé aux infrastructures HPC traditionnelles (mésocentres, centres nationaux et européens), c’est sur ce point que Grid’5000 se différencie principalement, en offrant des services de reconfiguration (déploiement bare-metal, utilisation de containers) permettant aux utilisateurs de se placer dans l’environnement logiciel requis par leurs travaux, ce qui est indispensable dans une démarche de mise au point de logiciel, de prototypage, ou d’évaluation des performances.

Grid’5000 est une infrastructure nationale, répartie sur 8 sites. Elle est labellisée dans le programme national Très Grandes Infrastructures de Recherche}, où elle est la seule infrastructure des sciences du numérique. Au niveau international, Grid’5000 fait partie de la fédération européenne de plates-formes expérimentales Fed4FIRE, et une soumission de projet dans le cadre du programme international ESFRI est prévue au printemps 2020. Le site Grid’5000 de Nancy est l’un des sites les plus importants de l’infrastructure.

Description de l’investissement réalisé

Sur un budget initialement prévu de 642 k€ (tous financeurs CPER confondus), une dépense de 605 k€ a été réalisée en 2019 (le détail est donné dans le calendrier plus bas).

L’équipement acheté lors de cette opération est un cluster de 124 nœuds. Chaque noeud est doté d’un processeur Intel Xeon Gold 5220, de 96 Go de RAM, d’un disque dur SSD de 480 Go, d’un deuxième disque dur SSD de 960 Go, réservable par les utilisateurs pour y stocker leurs données d’expériences. Les nœuds sont reliés par deux réseaux Ethernet configurables. Chaque nœud a deux interfaces 25 Gbps.

Ce cluster est intéressant à plusieurs titres. D’une part, son nombre de nœuds (124) en fait le plus grand cluster de Grid’5000, et il est ainsi particulièrement adapté aux expérimentations évaluant le passage à l’échelle. D’autre part, il est équipé d’une solution de mesure énergétique, fournie par l’entreprise française OmégaWatt, qui permet de réaliser des mesures précises à une fréquence très élevée, permettant ainsi des travaux sur l’économie d’énergie des infrastructures informatiques.

Calendrier et état d’avancement

  • Mai-Juin 2019: préparation des devis
  • 10 juillet 2019: commandes
  • 21 août 2019: livraison, début de l’installation physique
  • 10 septembre 2019: fin de l’installation physique, début de la configuration
  • 8 octobre 2019: début des tests pour valider l’installation. Résolution de divers problèmes.
  • 28 octobre 2019: livraison de la solution OmégaWatt de mesure énergétique
  • 5 novembre 2019: annonce du cluster aux utilisateurs
  • 15 janvier 2020: la solution de mesure énergétique est fonctionnelle

Utilisation

En janvier 2020, le cluster a été utilisé à 75% (contre une moyenne de 64% pour Grid’5000) et 75 utilisateurs l’ont déjà utilisé.

La mise en place de ce cluster a coincidé avec une période où dans le cadre d’une autre action du programme Cyber-Entreprises (Axe 4, «Cyber-sécurité»), des calculs records de cryptanalyse ont été menés. Les clusters du site Lorrain (EXPLOR, partie nancéienne de Grid’5000), ainsi que d’autres ressources au niveau national (autres clusters de Grid’5000) et international ont participé à cet effort de calcul. La spécificité des clusters de Grid’5000, permise par la solution logicielle utilisée sur ces équipements, a été d’utiliser la ressource de manière exclusivement opportuniste, pendant les périodes de faible utilisation. Ce travail a permis de battre le record mondial de factorisation d’entiers, en factorisant une clé RSA de 250 chiffres décimaux, calcul pour lequel la contribution du nouveau cluster acquis grâce au CPER a été de 10% du total. Ces travaux sont essentiels pour le choix des tailles de clés pour la cryptographie à clé publique, et la détermination de politique de renouvellement de ces clés.

CV du porteur

Lucas Nussbaum, maître de Conférences à l’Université de Lorraine depuis 2009, est chercheur dans l’équipe RESIST (LORIA / Inria Nancy Grand-Est). Ses thèmes de recherche sont l’expérimentation et la recherche reproductible pour les systèmes distribués (HPC, Cloud, Big Data, réseau). L. Nussbaum est responsable du site Grid’5000 de Nancy, membre du bureau et du comité d’architectes du GIS Grid’5000.

Galerie

 

Les commentaires sont clos.