Gaël Richard de Télécom Paris lauréat d’une bourse ERC « Advanced » pour ses recherches sur l’IA et l’audio
L’Institut Mines-Télécom (IMT) annonce que le projet HI-Audio de Gaël Richard, professeur à Télécom Paris, est lauréat de la bourse ERC « Advanced » 2021. Une telle bourse s’adresse à des chercheurs et chercheuses confirmés et reconnus internationalement. Elle finance un projet de recherche qui ouvre de nouvelles voies par rapport à leurs activités de recherche. Le projet lauréat de Machine Listening s’intéresse à l’exploitation de nouveaux modèles IA d’analyse et de compréhension du son. Les applications visées sont l’analyse de la parole et de scènes audio, la recherche d’informations musicales et la transformation et la synthèse du son.
Dans le cadre du programme Horizon Europe, ces bourses permettent de financer des chercheuses et chercheurs confirmés dont les travaux bénéficient déjà d’une large reconnaissance internationale. Les bourses « Advanced Grants » de l’ERC (Conseil européen de la recherche) visent les projets de recherche ambitieux et risqués, aux frontières de la connaissance, répondant à des enjeux ou verrous scientifiques innovants. Le financement est de 2,5 millions d’euros maximum et d’une durée pouvant aller jusqu’à 5 ans.
Gaël Richard est spécialiste du traitement du signal audio et déjà lauréat du Grand Prix IMT-Académie des sciences en 2020. Suite à son doctorat de l’Université Paris-Sud obtenu en 1994, il consacre le début de sa carrière de chercheur à la synthèse de la voix chantée, puis la synthèse de la parole. Ses travaux dans le domaine du traitement du signal l’amènent à trouver de nouvelles méthodes de décomposition de la voix en éléments constitutifs du signal sonore, pour ainsi mieux recréer une voix de synthèse. C’est ainsi qu’il met au point le principe de décomposition du signal comme un produit de deux matrices positives : l’une représentant des composantes élémentaires du son, et l’autre indiquant les activations de ces composantes au cours du temps.
Le projet HI-Audio – Création de nouveaux modèles IA d’analyse du son
L’écoute automatique – Machine Listening, ou l’IA pour le son, concerne l’analyse, la compréhension et la synthèse audio par une machine. L’accès à des superordinateurs de plus en plus puissants, combiné à la disponibilité d’énormes dépôts de données (bien qu’en grande partie non annotés), a facilité l’émergence d’approches d’apprentissage automatique purement axées sur les données. Le domaine s’est rapidement orienté vers des approches neuronales de bout en bout qui visent à résoudre directement le problème de l’apprentissage automatique pour les signaux acoustiques bruts ne tenant pas assez compte de la nature et de la structure des données traitées.
Les principales conséquences sont que les modèles :
- sont excessivement complexes et nécessitent des quantités massives de données pour être entraînés et une puissance de calcul extrême pour être efficaces (en termes de performance de la tâche)
- restent largement inexplicables et non interprétables.
- les recherches de Gaël Richard veulent remédier à ces inconvénients majeurs : « nous pensons que nos connaissances préalables sur la nature des données traitées, leur processus de génération et leur perception par les humains devraient être explicitement exploitées dans les cadres d’apprentissage automatique basés sur les neurones. »
L’objectif du projet qui fait l’objet de la bourse ERC Advanced est donc de construire de telles approches profondes hybrides combinant des modèles de signaux efficaces en termes de paramètres et interprétables, des modèles musicologiques et physiques, avec des architectures neuronales profondes sur mesure. Les directions de recherche suivies par HI-Audio exploiteront de nouveaux modèles déterministes et statistiques de l’environnement audio et sonore avec des auto-encodeurs neuronaux et des réseaux génératifs dédiés. Ils cibleront des applications spécifiques, notamment l’analyse de la parole et des scènes audio, la recherche d’informations musicales et la transformation et la synthèse du son.