Une nouvelle publication sur le blog de recherche en apprentissage automatique d’Apple met en lumière les améliorations considérables du processeur M5 par rapport au M4 en matière d’exécution des modèles de langage locaux (LLM). Voici les détails.

Contexte

Il y a quelques années, Apple a lancé MLX, un cadre de travail que la société décrit comme « un cadre de tableaux pour un apprentissage automatique efficace et flexible sur les puces Apple ». En pratique, MLX est un cadre open-source qui permet aux développeurs de créer et d’exécuter des modèles d’apprentissage automatique sur leurs Mac équipés de puces Apple, soutenu par des API et des interfaces familières au monde de l’IA.

Voici ce qu’Apple dit de MLX :

MLX est un cadre de tableaux open-source qui est efficace, flexible et hautement optimisé pour la puce Apple. Vous pouvez utiliser MLX pour une grande variété d’applications allant des simulations numériques et du calcul scientifique à l’apprentissage automatique. MLX propose une prise en charge intégrée pour l’entraînement et l’inférence des réseaux de neurones, y compris la génération de texte et d’images. MLX facilite la génération de texte ou le fine-tuning des grands modèles de langage sur les appareils à puce Apple.

M5 contre M4

Dans son article, Apple présente les gains de performance d’inférence du nouveau processeur M5, grâce aux nouveaux Accélérateurs Neuronaux du GPU, qui, selon Apple, « offrent des opérations de multiplication matricielle dédiées, essentielles pour de nombreuses charges de travail en apprentissage automatique ». Pour illustrer ces gains de performance, Apple a comparé le temps nécessaire à plusieurs modèles ouverts pour générer le premier token après avoir reçu une invite sur un MacBook Pro M4 et M5, en utilisant MLX LM.

Comme l’indique Apple :

Nous avons évalué Qwen 1.7B et 8B, en précision native BF16, ainsi que les modèles quantifiés à 4 bits Qwen 8B et Qwen 14B. Nous avons également testé deux Mixtures of Experts (MoE) : Qwen 30B (3B de paramètres actifs, quantifié à 4 bits) et GPT OSS 20B (en précision native MXFP4). L’évaluation est effectuée avec mlx_lm.generate et rapportée en termes de temps de génération du premier token (en secondes) et de vitesse de génération (en tokens/s). Dans tous ces benchmarks, la taille de l’invite est de 4096. La vitesse de génération a été évaluée lors de la génération de 128 tokens supplémentaires.

Les résultats sont probants :

Il est important de noter que l’inférence LLM utilise des approches différentes pour générer le tout premier token par rapport à la génération des tokens suivants. En résumé, l’inférence du premier token est limitée par le calcul, tandis que la génération des tokens suivants est limitée par la mémoire.

C’est pourquoi Apple a également évalué la vitesse de génération pour 128 tokens additionnels, comme mentionné précédemment. Dans l’ensemble, le M5 a montré un gain de performance de 19 à 27 % par rapport au M4.

Apple commente ces résultats :

Sur les architectures que nous avons testées dans cet article, le M5 offre un gain de performance de 19 à 27 % par rapport au M4, grâce à sa bande passante mémoire supérieure (120 Go/s pour le M4, 153 Go/s pour le M5, soit 28 % de plus). Concernant l’empreinte mémoire, le MacBook Pro de 24 Go peut facilement gérer un modèle 8B en précision BF16 ou un MoE 30B quantifié à 4 bits, tout en maintenant la charge de travail d’inférence sous 18 Go pour ces deux architectures.

Apple a également comparé la différence de performance pour la génération d’images, notant que le M5 est plus de 3,8 fois plus rapide que le M4.

Partager un commentaire