Plus tôt cette semaine, Bloomberg a rapporté qu’Apple et Google sont sur le point de finaliser un accord d’un milliard de dollars par an pour une version du modèle Gemini qui alimentera la nouvelle version de Siri l’année prochaine.

Cependant, ce qui est peut-être plus intéressant que le montant de cet accord, c’est la manière dont l’architecture du modèle va réellement influencer l’expérience des utilisateurs. Examinons comment cela devrait fonctionner.

1,2 trillion de paramètres, est-ce beaucoup ?

Selon le rapport de Bloomberg, Google fournira à Apple un modèle de 1,2 trillion de paramètres, qui sera hébergé sur les serveurs Apple Private Cloud Compute, empêchant Google d’y avoir accès. D’un point de vue confidentialité, c’est une excellente nouvelle.

En termes de taille, un modèle de 1,2 trillion de paramètres ne doit pas être sous-estimé. Cependant, comparer directement ce modèle avec ceux des autres acteurs majeurs est complexe. Les laboratoires d’IA tels qu’OpenAI, Anthropic et Google ont cessé de divulguer le nombre de paramètres de leurs derniers modèles phares, alimentant ainsi des spéculations variées sur le vrai nombre de paramètres de modèles comme GPT-5, Gemini 2.5 Pro ou Claude Sonnet 4.5. Certains estiment qu’ils sont en dessous d’un trillion de paramètres, tandis que d’autres suggèrent qu’ils atteignent plusieurs trillions. Au final, personne ne peut vraiment le dire.

Cela dit, la plupart de ces modèles gigantesques partagent une architecture sous-jacente appelée mixture of experts (MoE). En fait, Apple utilise déjà une forme de MoE sur son modèle basé dans le cloud, qui, selon les rumeurs, aurait 150 milliards de paramètres.

Le modèle de Siri propulsé par Gemini utilisera probablement une mixture of experts

En résumé, la MoE est une technique qui structure un modèle avec plusieurs sous-réseaux spécialisés appelés « experts ». Pour chaque entrée, seuls quelques experts pertinents sont activés, ce qui permet d’obtenir un modèle plus rapide et plus efficace sur le plan computationnel.

En d’autres termes, cela permet aux modèles MoE d’avoir des nombres de paramètres très élevés, tout en gardant les coûts d’inférence beaucoup plus bas que si 100 % de leurs paramètres devaient être activés pour chaque entrée.

Les modèles utilisant cette approche MoE possèdent généralement un nombre maximum d’experts actifs et un maximum de paramètres actifs pour chaque entrée. Ainsi, un modèle avec 1,2 trillion de paramètres pourrait utiliser 32 experts, avec seulement 2 à 4 experts actifs par token. Cela signifie qu’environ 75 à 150 milliards de paramètres réalisent des calculs à tout moment, offrant la capacité d’un grand modèle tout en maintenant des coûts computationnels similaires à ceux d’un modèle beaucoup plus petit.

Il est important de noter que jusqu’à présent, aucune information concernant l’architecture exacte du modèle que Google pourrait fournir à Apple n’a été divulguée, si un accord venait à être conclu. Toutefois, avec 1,2 trillion de paramètres, il est très probable que l’approche MoE soit nécessaire pour un fonctionnement efficace, compte tenu des alternatives disponibles aujourd’hui.

Partager un commentaire