Dans une étude récente, les chercheurs d’Apple présentent un modèle de diffusion capable d’écrire jusqu’à 128 fois plus rapidement que ses homologues. Voici comment cela fonctionne.

Les détails techniques

Pour mieux comprendre cette étude, il est essentiel de savoir que les modèles de langage volumineux (LLM) comme ChatGPT sont des modèles autorégressifs. Ils génèrent du texte de manière séquentielle, un jeton à la fois, en prenant en compte à la fois la demande de l’utilisateur et tous les jetons déjà générés.

Contrairement aux modèles autorégressifs, les modèles de diffusion génèrent plusieurs jetons en parallèle et les affinent à travers plusieurs étapes itératives jusqu’à ce que la réponse complète prenne forme.

Une variante des modèles de diffusion est le modèle de correspondance de flux, qui contourne essentiellement le processus itératif des modèles de diffusion et apprend à générer le résultat final en une seule fois.

L’étude d’Apple

Dans une étude publiée aujourd’hui, intitulée “FS-DFM : génération rapide et précise de textes longs avec des modèles de langage à diffusion de peu d’étapes”, les chercheurs d’Apple et de l’Université d’État de l’Ohio proposent un nouveau modèle appelé Few-Step Discrete Flow-Matching, ou FS-DFM.

Les chercheurs démontrent que le FS-DFM est capable de rédiger des passages complets en seulement huit rondes d’affinage rapides, égalant la qualité de modèles de diffusion qui nécessitaient plus de mille étapes pour obtenir un résultat similaire.

Pour ce faire, les chercheurs appliquent une approche en trois étapes. Premièrement, le modèle est entraîné pour gérer différents budgets d’itérations d’affinage. Ensuite, ils utilisent un modèle « enseignant » pour l’aider à apporter des mises à jour plus larges et plus précises à chaque itération sans « dépasser » le texte prévu. Enfin, ils adaptent le fonctionnement de chaque itération afin que le modèle puisse atteindre le résultat final en moins d’étapes, mais de manière plus stable.

Performances du modèle FS-DFM

Comparé à des modèles de diffusion plus volumineux, le FS-DFM a affiché de bonnes performances sur deux métriques importantes : la perplexité et l’entropie.

En résumé, le score de perplexité est une mesure standard de la qualité du texte dans les modèles de langage. Plus la perplexité est basse, plus le texte sonne de manière naturelle et précise.

Quant à l’entropie, elle mesure essentiellement la confiance du modèle dans le choix de chaque mot. En pratique, une entropie trop basse peut rendre le texte répétitif, tandis qu’une entropie trop élevée peut le rendre aléatoire ou incohérent.

Comparé aux modèles de diffusion Dream avec 7 milliards de paramètres et LLaDA avec 8 milliards de paramètres, les variantes de FS-DFM avec 1,7, 1,3 et 0,17 milliard de paramètres ont systématiquement atteint une perplexité plus faible tout en maintenant une entropie plus stable lors de tous les comptes d’itérations.

Étant donné les résultats et le potentiel prometteur de cette méthode, les chercheurs ont également déclaré qu’ils « prévoient de publier le code et les points de contrôle du modèle pour faciliter la reproductibilité et la recherche future ».

Si vous souhaitez explorer plus en détail les méthodes d’Apple et les détails spécifiques de l’implémentation des modèles, n’hésitez pas à consulter l’article complet sur arXiv.

Partager un commentaire