Compresser autrement les données visuelles

Le nombre de vidéos sur le web explose. Leur stockage consomme de plus en plus d’énergie. Au point d’en devenir un problème environnemental. Les algorithmes de compression ne peuvent guère alléger le fardeau car ils s’évertuent à restituer fidèlement les données d’origine. D’où le besoin d’un paradigme radicalement différent qui puisse assurer des taux de compression bien supérieurs. Une façon de faire consisterait à encoder les images dans une description compacte et de nature sémantique, puis à ‘réinventer’ les données au décodage. Cette nouvelle technique s’appelle la compression générative. Elle fait actuellement l’objet de travaux au centre Inria de Rennes.


Pixabay – Gerd Altmann

Chaque minute, environ 500 heures de vidéos sont exportées vers YouTube. Dans le même laps de temps, le site diffuse 700 000 heures de stream. Sans parler des autres plateformes et des réseaux sociaux en tous genres. Ce tsunami de données repose sur des infrastructures de stockage qui engouffrent désormais une quantité phénoménale d’électricité pour alimenter et refroidir les machines. Quant aux chiffres, ils continuent de s’envoler…

Compresser les données pour en réduire le volume contribuerait à atténuer le problème. Mais les algorithmes de compression n’offrent que des gains modestes en raison d’une limite consubstantielle. “Ils sont conçus pour reproduire les données aussi fidèlement que possible. Donc, si nous voulons diminuer drastiquement la taille de la donnée, il faut passer à un autre paradigme. Il faut changer l’objectif même de la compression,” résume Thomas Maugey*. Dans le prolongement d’une action exploratoire d’Inria, ce scientifique spécialiste de l’image vient de recevoir une bourse Jeune Chercheur Jeune Chercheuse de l’Agence nationale de la recherche pour continuer ses travaux dans ce nouveau domaine que l’on appelle la compression générative. Le projet global porte le nom de  DARE*,  un acronyme signifiant Data Repurposing. On pourrait le traduire en français par ‘recyclage de données’.

 

Comme une partition de musique

Plutôt que de s’efforcer de ressembler au maximum à la donnée d’entrée, nous allons nous autoriser à ne pas la reproduire fidèlement, mais plutôt à l’encoder dans une description compacte de nature sémantique. La meilleure analogie qui vienne à l’esprit est celle de la partition de musique. Quand on y pense, c’est la représentation la plus compacte d’une œuvre. Grâce à elle, la musique peut être rejouée. Certes, le rendu ne sera pas exactement identique à l’enregistrement d’origine, mais il en sera quand même très proche. Notre idée, c’est d’appliquer ce concept de partition, mais pour les images. Les données seront réinventées au décodage de façon à ce qu’elle soient sémantiquement cohérentes avec celles en entrée. Elles leur ressembleront.

Pixabay – Ri Butov

Pour ce faire, les chercheurs vont s’appuyer sur l’Intelligence Artificielle, et plus précisément un type de réseau de neurones appelé réseau génératif antagoniste. Plus connu sous le signe anglais GAN, cet algorithme génère de nouvelles données à partir de celles d’apprentissage. Par exemple, il peut produire la photographie très réaliste d’une personne complètement imaginaire. Et il ne s’agit pas d’un assemblage de lèvres, de joues et de sourcils appartenant à différents individus, mais bien d’une pure création.

Pour y parvenir, les GAN ont besoin de quelque chose en entrée. “On leur donne des chiffres aléatoires à partir desquels ils vont inventer un portrait. On donne, par exemple, 1000 chiffres.” Cependant, il aurait peut-être une autre manière d’utiliser ces réseaux. “Si nous parvenions à trouver un lien entre ces chiffres et le rendu en sortie, alors nous pourrions piloter cet outil génératif. Tout l’enjeu de notre recherche consiste à trouver ce lien, à construire la description d’entrée, à affiner la sémantique.

 

Plus adapté aux données froides

Au final, les gains de compression pourraient s’avérer colossaux. Cela dit, “la compression générative ne conviendrait certainement pas pour tous les cas. Pas pour des vidéos présentant une intention artistique ou pour des enregistrements chargés d’affect. Des images de famille par exemple. La technique conviendrait mieux pour les données froides. C’est-à-dire toutes ces vidéos rarement regardées, qui ne nous intéressent plus vraiment, mais que nous ne sommes pas encore tout à fait décidés à supprimer.”  Le repurposing offre alors une troisième voie entre ‘garder’ et ‘effacer’.

Par ailleurs, le nouveau schéma de compression pourrait aussi ne s’appliquer qu’à une partie de l’image. “On ne toucherait pas au premier plan où se déroule l’action. On régénérerait simplement l’arrière plan où rien ne se passe et auquel, de toute façon, personne ne prête attention. On garderait par exemple les footballeurs sur le terrain, mais on régénérerait la foule dans le stade.

Et qui décidera de quel schéma de compression appliquer à quelle donnée ? “C’est aux utilisateurs d’opérer ce choix. Notre outil leur permettra de compresser les différentes vidéos de leur collection comme bon leur semble, que ce soit pour publier sur les réseaux sociaux, envoyer sur le cloud, etc.

Les scientifiques souhaitent aussi contribuer à la prise de conscience sur l’impact des activités numériques. “Nous aurons un site web qui permettra à chacun d’évaluer sa propre empreinte. Par exemple, quelle est le coût énergétique d’un téléchargement d’une série sur Netflix ou le stockage de vidéos sur le cloud ? On pourra mesurer sa consommation, étape par étape, sur toute la chaîne et simuler différents schémas de compression.

Dans cette quête de frugalité, le comportement de l’utilisateur constitue un élément clé. “Il y a un risque d’effet rebond, prévient Thomas Maugey. Souvent, quand une technologie améliore l’usage d’une ressource, la consommation de cette ressource augmente. Alors que les moteurs d’automobiles sont devenus moins gourmands, l’utilisation de la voiture n’a fait que croître. Même chose avec la vidéo. Plus elles sont faciles à produire, plus on en met en ligne.

 

 

  • Thomas Maugey est membre de Sirocco, une équipe-projet Inria, CNRS et Université Rennes 1, commune à l’Irisa.
  • Le projet a été financé par une action exploratoire Inria (DARE), une bourse ANR Jeune Chercheur Jeune Chercheuse (MADARE) et une bourse de thèse de l’Université Rennes 1. Membres du projet : Anju Jose Tom, Tom Bachard, Tom Bordin et Sébastien Bellenous. Collaborateurs : Aline Roumy (Inria) et Laura Toni (UCL).

Les commentaires sont clos.