
Une équipe de chercheurs d’Apple et de l’Université de Tel-Aviv a mis au point une méthode pour accélérer la génération de parole par IA à partir de texte, tout en préservant l’intelligibilité. Découvrez cette approche innovante.
Une approche intéressante pour générer de la parole plus rapidement
Dans un article intitulé Principled Coarse-Grained Acceptance for Speculative Decoding in Speech, les chercheurs d’Apple présentent une méthode intrigante de génération de parole à partir de texte.
Alors que plusieurs méthodes existent actuellement, les chercheurs se sont concentrés sur les modèles autoregressifs de conversion texte-parole, qui génèrent les unités de parole une à une.
Ces modèles prédisent chaque unité à partir des unités précédentes, ce qui crée un goulot d’étranglement dans le traitement. Comme l’expliquent les chercheurs d’Apple :
Cependant, pour les LLMs de parole qui génèrent des unités acoustiques, un appariement exact des unités est trop restrictif : de nombreuses unités discrètes sont acoustiquement ou sémantiquement interchangeables, réduisant les taux d’acceptation et limitant les gains en vitesse.
Le principe de la codification grossière (PCG)
La solution d’Apple repose sur la notion que plusieurs unités peuvent produire des sons quasi identiques. Par conséquent, Apple regroupe les unités de parole similaires, rendant le processus de vérification plus flexible.
Au lieu de considérer chaque son comme totalement distinct, cette approche permet au modèle d’accepter une unité appartenant au même groupe de « similarité acoustique ».
Le PCG comprend deux modèles : un modèle plus petit qui propose rapidement des unités de parole et un second modèle, plus grand, qui vérifie si ces unités appartiennent au bon groupe acoustique avant de les accepter.
Le résultat est un cadre qui adapte les concepts de décodage spéculatif (SD) aux LLMs générant des unités acoustiques, ce qui accélère la génération de parole tout en garantissant une intelligibilité.
Les chercheurs ont démontré que le PCG a augmenté la génération de parole d’environ 40 %, une amélioration significative, étant donné que l’application du décodage spéculatif standard aux modèles de parole n’avait que très peu d’impact sur la vitesse.
Enfin, le PCG a maintenu les taux d’erreur de mots à des niveaux inférieurs par rapport aux méthodes axées sur la vitesse précédentes, préservé la similarité du locuteur, et surpassé les approches antérieures en atteignant un score de naturel de 4.09 (une évaluation humaine standard de 1 à 5 sur la naturel de la parole).
Ce que le PCG pourrait signifier dans la pratique
Bien que l’étude ne précise pas l’impact potentiel de ses conclusions pour les produits et services d’Apple, cette approche pourrait s’avérer pertinente pour de futures fonctionnalités vocales devant équilibrer rapidité, qualité et efficacité.
Il est important de noter que cette méthode ne nécessite pas de réentraîner le modèle cible, car il s’agit d’un changement en temps de décodage. En d’autres termes, il s’agit d’un ajustement applicable aux modèles de parole existants lors de l’inférence, sans nécessiter de réentraînement ou des changements d’architecture.
De plus, le PCG nécessite des ressources supplémentaires minimales (environ 37 Mo de mémoire pour stocker les groupes de similarité acoustique), ce qui le rend pratique pour un déploiement sur des appareils à mémoire limitée.
Pour en savoir plus sur le PCG, y compris des détails techniques approfondis concernant les ensembles de données et le contexte d’évaluation, suivez ce lien ici.








