Réseaux de neurones adaptatifs en profondeur du point de vue du contrôle optimal.
Résumé : Ces dernières années, l’apprentissage profond a été associé à un problème de contrôle optimal pour définir la notion de problème d’apprentissage continu sous-jacent. Dans cette optique, les réseaux de neurones peuvent être interprétés comme une discrétisation d’une équation différentielle ordinaire paramétrique qui, à la limite, définit un réseau neuronal continu en profondeur. La tâche d’apprentissage consiste alors à trouver les meilleurs paramètres d’EOD pour le problème considéré, et leur nombre augmente avec la précision de la discrétisation temporelle. Bien que des mesures importantes aient été prises pour réaliser les avantages de telles formulations continues, la plupart des techniques d’apprentissage actuelles fixent une discrétisation (c’est-à-dire que le nombre de couches est fixe). Dans ce travail, nous proposons un algorithme adaptatif itératif dans lequel nous affinons progressivement la discrétisation temporelle (c’est-à-dire que nous augmentons le nombre de couches). A condition que certaines tolérances soient respectées au cours des itérations, nous prouvons que la stratégie converge vers le problème continu sous-jacent. Un des avantages majeurs de cette approche faible profondeur/grande profondeur est qu’elle permet de bénéficier en pratique des propriétés d’approximation plus élevées des réseaux profonds en atténuant les problèmes de sur-paramétrage. Les performances de l’approche sont illustrées par plusieurs exemples numériques.