Il y a quelques mois, Apple a organisé un événement de deux jours centré sur les dernières avancées en matière de traitement du langage naturel (NLP). Aujourd’hui, la société a publié un article présentant divers moments forts et études présentées lors de cet événement. Voici les grandes lignes.

L’atelier sur les systèmes interactifs et le langage naturel 2025 s’est tenu les 15 et 16 mai, et les discussions se sont concentrées sur trois domaines de recherche principaux liés au NLP :

  • Systèmes interactifs de langage parlé
  • Entraînement et alignement des LLM
  • Agents linguistiques

Lors de cet événement, de nombreux chercheurs provenant d’universités, d’instituts, de laboratoires et de groupes de recherche, tels que l’Allen Institute for AI, l’Imperial College de Londres, le MIT, l’Université Harvard, l’Université de Stanford et l’Université de Princeton, ont présenté leurs travaux les plus récents.

Certaines de ces chercheurs collaborent également avec des entreprises, notamment Microsoft, Amazon, Sony, Google, Tencent, Cohere et, bien sûr, Apple.

1. Effondrement des modèles d’IA et détection des hallucinations des LLM

Ces deux études ont été présentées par Yarin Gal, professeur associé à l’Université d’Oxford et directeur de la recherche à l’UK AI Security Institute. La première étude, intitulée Effondrement des modèles d’IA, explore les limites de l’utilisation d’internet comme source de données fiable pour l’entraînement des LLM, en raison de l’augmentation du contenu généré par les modèles.

Gal a expliqué que l’entraînement des LLM sur des données d’origine synthétique pourrait poser un risque d’effondrement, affectant leurs capacités de connaissance et de raisonnement. Cependant, ce problème pourrait être résolu grâce au développement de nouveaux outils permettant de distinguer le contenu généré par l’IA de celui créé par des humains, ainsi qu’à des régulations renforcées et des études supplémentaires sur l’impact des LLM sur la société.

Sa seconde étude, Détection des hallucinations des LLM, propose une approche novatrice pour identifier le niveau de confiance d’un LLM lors de la génération de réponses. En résumé, il s’agit de faire en sorte que le modèle génère plusieurs réponses, puis de regrouper ces réponses selon leur signification sémantique, permettant ainsi un calcul plus précis du niveau de certitude et d’exactitude.

2. Apprentissage par renforcement pour les agents LLM interactifs à long terme

Cette présentation, animée par Kevin Chen, chercheur en apprentissage automatique chez Apple, a mis en avant un agent entraîné avec une méthode appelée optimisation de politique proximale leave-one-out, ou LOOP.

L’agent a été formé pour effectuer des tâches complexes en plusieurs étapes, basées sur des prompts tels que :

« Je suis parti en voyage avec des amis à Maui récemment. J’ai noté l’argent que je dois et que d’autres me doivent pour le voyage. Faites les paiements ou demandes Venmo en conséquence. Dans les paiements/demandes, ajoutez une note, “Pour le voyage à Maui”. »

Dans la première partie de la présentation, Chen a montré qu’étant donné que cette tâche implique plusieurs cadres et dépendances de connaissances, un agent pourrait ne pas être capable d’effectuer la demande avec précision. Cependant, avec LOOP, qui apprend itérativement de ses propres actions et est entraîné pour maximiser ses récompenses, la demande a été exécutée avec moins d’erreurs et d’hypothèses.

3. Streamlining spéculatif : inférence LLM rapide sans modèles auxiliaires

Dans cette présentation, Irina Belousova, responsable de l’ingénierie chez Apple, a exposé les avantages du décodage spéculatif, qui permet de générer des réponses de manière moins coûteuse en utilisant un petit modèle tout en conservant une qualité comparable à celle des grands modèles.
En somme, le petit modèle génère des séquences candidates de réponses, qui sont ensuite vérifiées par un grand modèle. Si la réponse est acceptée, son travail est terminé. Cette approche conduit à une utilisation de mémoire réduite, une performance améliorée et nécessite moins de paramètres par rapport à des modèles similaires.

De plus, cette méthode simplifie le déploiement en éliminant la complexité de gestion et d’alignement entre plusieurs modèles lors de l’inférence, rendant ainsi l’infrastructure plus simple.

Cette étude en particulier offre de nombreux détails techniques intéressants qui méritent d’être explorés. La présentation dure un peu plus de 8 minutes, mais elle regorge d’insights captivants.

Pour découvrir les vidéos mises en avant par Apple et consulter la liste complète des études présentées lors de cet événement, cliquez ici.

Partager un commentaire