Apple a discrètement mis à jour un nouveau modèle d’IA sur Hugging Face, avec une approche innovante. Ce modèle, au lieu de générer du code de manière traditionnelle (de gauche à droite, de haut en bas), peut également écrire de manière non linéaire, améliorant plusieurs morceaux simultanément.

Cette méthode promet un génération de code plus rapide, rivalisant avec les meilleurs modèles de codage open-source.

Les aspects techniques

Avant d’approfondir, examinons quelques concepts clés :

Autoregression

Traditionnellement, la plupart des LLMs (modèles de langage de grande taille) fonctionnent sur un principe autoregressif. Lorsqu’ils reçoivent une question, ils analysent celle-ci, prédisent un premier token de réponse, réévaluent la question avec ce token et poursuivent ainsi. Ce modèle génère du texte de manière séquentielle.

Température

Les LLMs disposent d’un réglage nommé température qui influence la créativité de leur sortie. Une température basse les incite à choisir des tokens plus probables, alors qu’une température élevée leur permet de s’aventurer vers des options moins courantes.

Diffusion

Les modèles de diffusion, souvent utilisés dans les applications d’image comme Stable Diffusion, commencent avec une image floue et itérativement réduisent le bruit pour obtenir un résultat plus précis en tenant compte de la demande de l’utilisateur.

Un modèle à la pointe de l’innovation

Apple a présenté un modèle open-source baptisé DiffuCode-7B-cpGRPO, basé sur un papier intitulé DiffuCoder : Understanding and Improving Masked Diffusion Models for Code Generation, publié le mois dernier. Ce modèle adopte une approche de génération de code fondée sur la diffusion, avec une flexibilité notable : en augmentant la température, DiffuCoder peut générer des tokens en dehors des contraintes strictes de gauche à droite.

En incorporant une étape d’entraînement supplémentaire nommée coupled-GRPO, il a appris à produire un code de qualité supérieure avec moins de passes, permettant ainsi une génération plus rapide et plus cohérente.

Un modèle basé sur une technologie open-source

Fait intéressant, le modèle d’Apple est construit sur le Qwen2.5‑7B, un modèle open-source de Alibaba. Après avoir été affiné pour une meilleure génération de code, Apple l’a ajusté pour donner naissance à un modèle à décodeur basé sur la diffusion.

Cette innovation a porté ses fruits, avec une augmentation de 4,4 % sur les benchmarks de codage, tout en maintenant une dépendance inférieure à la génération de code strictly séquentielle.

Cependant, des améliorations sont encore nécessaires. Bien que DiffuCoder surpasse plusieurs modèles de codage basés sur la diffusion, il n’atteint pas encore les performances de modèles comme GPT-4 ou Gemini Diffusion. Néanmoins, Apple continue de poser les bases de ses efforts en intelligence artificielle générative avec des idées novatrices et intéressantes.

Partager un commentaire