Accueil

La reconnaissance vocale est maintenant utilisée dans de nombreuses applications, dont les assistants virtuels qui collectent, traitent et stockent des données vocales personnelles sur des serveurs centralisés, ce qui soulève de sérieuses préoccupations concernant la privacité. Des approches à base de reconnaissance vocale embarquée ont récemment été proposées pour traiter ces aspects de privacité, mais seulement pendant la phase de reconnaissance de la parole. Dans ce cas, comme tous les traitements sont effectués sur le terminal de l’utilisateur, les données vocales restent privées. Cependant, il y a encore besoin d’améliorer davantage la technologie de reconnaissance vocale car ses performances restent limitées dans des conditions défavorables (e.g., environnements bruyants, parole réverbérée, accents forts, etc). Cela ne peut être obtenu qu’à partir de grands corpus de parole représentatifs de conditions d’utilisation réelles et variées. Pour cela, il est nécessaire de partager des données vocales tout en gardant l’identité du locuteur privée. Les améliorations sont alors bénéfiques pour tous les utilisateurs. Il est également évident que l’utilisateur doit avoir le contrôle sur ses données, afin de ne pas transmettre de données dont les contenus linguistiques sont critiques.

Dans ce contexte, le projet ANR DEEP-PRIVACY propose un nouveau paradigme basé sur une approche distribuée, personnalisée et préservant la privacité pour le traitement de la parole, en mettant l’accent sur les algorithmes d’apprentissage pour la reconnaissance de la parole. Pour ce faire, nous proposons une approche hybride: le terminal de chaque utilisateur ne partage pas ses données vocales brutes et exécute des calculs privés localement, alors que certains calculs inter-utilisateurs sont réalisés sur un serveur (ou un réseau peer-to-peer). Pour satisfaire aux exigences de privacité, les informations communiquées au serveur ne doivent pas exposer d’informations sensibles. Le projet aborde les défis ci-dessus d’un point de vue théorique, méthodologique et empirique à travers deux objectifs scientifiques majeurs.

Le premier objectif concerne l’apprentissage de représentations du signal vocal préservant la privacité, c’est-à-dire qui démêlent les caractéristiques susceptibles d’exposer des informations privées (à conserver sur le terminal) de celles génériques utiles à la tâche concernée (qui satisfont des aspects de privacité, et peuvent être partagées). Pour la reconnaissance de la parole, cela correspond respectivement à des informations de locuteur (à protéger) et à des informations linguistiques (à partager) portées par la parole. Pour atteindre cet objectif, nous explorerons plusieurs directions, toutes basées sur des approches d’apprentissage profond ; et, outre les mesures classiques de reconnaissance de parole et du locuteur, nous utiliserons également des notions formelles de privacité pour évaluer leur performance.

Le deuxième objectif concerne les algorithmes distribués et la personnalisation, grâce à la conception d’algorithmes distribués efficaces fonctionnant dans un environnement où les données utilisateur sensibles sont conservées sur le terminal, avec des composants globaux fonctionnant sur des serveurs et des composants personnalisés fonctionnant sur des terminaux personnels. Les données transférées aux serveurs devraient contenir des informations utiles pour l’apprentissage et la mise à jour des composants globaux (modèles acoustiques), tout en préservant la privacité. Nous étudierons le type de données à échanger (e.g., gradients, modèles partiels, …) et étudierons les informations de locuteur restant présentes dans ces données. De plus, les composants personnalisés permettent d’introduire des transformations spécifiques aux locuteurs et d’adapter certains paramètres du modèle au locuteur. Enfin, nous considérerons un contexte peer-to-peer, comme une alternative aux serveurs, pour le partage de données et l’apprentissage de modèles.

Les commentaires sont clos.