Dans un document de recherche publié il y a quelques jours, les meilleurs ingénieurs en IA d’Apple décrivent un système dans lequel Siri peut faire bien plus que tenter de reconnaître le contenu d’une image. La meilleure partie ? Ils pensent que l’un des modèles permettant d’exécuter ces benchmarks est meilleur que ChatGPT 4.0.
Dans l’article (ReALM : Reference Resolution As Language Modeling), Apple décrit quelque chose qui pourrait donner plus d’utilité à un assistant vocal alimenté par un grand modèle de langage. ReALM prend en compte à la fois ce qui est à l’écran et quelles activités sont actives. Voici un extrait du document décrivant cette approche :
- Entités à l’écran : ce sont des entités actuellement affichées sur l’écran d’un utilisateur.
- Entités conversationnelles : ce sont des entités pertinentes pour la conversation. Ces entités pourraient provenir d’un tour précédent lié à l’utilisateur (par exemple, lorsque l’utilisateur dit « Appeler maman », le contact de maman serait l’entité pertinente en question), ou de l’assistant virtuel (par exemple, lorsque l’agent fournit le utilisateur avec une liste d’emplacements ou d’alarmes parmi lesquels choisir).
- Entités d’arrière-plan : il s’agit d’entités pertinentes provenant de processus d’arrière-plan qui ne font pas nécessairement partie directement de ce que l’utilisateur voit sur son écran ou de son interaction avec l’agent virtuel ; par exemple, une alarme qui commence à sonner ou de la musique en arrière-plan.
Tout cela ressemble à une recette pour un Siri plus intelligent et plus utile. Apple semble également confiant dans sa capacité à accomplir une telle tâche avec une rapidité impressionnante. L’analyse comparative est comparée à ChatGPT 3.5 et ChatGPT 4.0 d’OpenAI :
« À titre de référence supplémentaire, nous utilisons les variantes GPT-3.5 et GPT-4 de ChatGPT, disponibles le 24 janvier 2024, avec apprentissage en contexte. Comme dans notre configuration, nous visons à ce que les deux variantes s’attendent à une liste d’entités de un ensemble disponible. Dans le cas de GPT-3.5, qui n’accepte que du texte, notre entrée consiste uniquement en l’invite ; cependant, dans le cas de GPT-4, qui a également la capacité de contextualiser sur des images, nous fournissons au système une capture d’écran avec pour tâche de référencer la résolution sur l’écran, ce qui contribue à améliorer considérablement les performances. »
Alors, comment fonctionne le modèle d’Apple ?
« Nous confirmons d’importantes améliorations par rapport à un système existant avec des fonctionnalités similaires sur différents types de références, notre plus petit modèle réalisant des gains absolus de plus de 5 % pour les références à l’écran. Nous comparons également avec GPT-3.5 et GPT-4, avec notre plus petit modèle atteignant des performances comparables à celles du GPT-4, et nos plus grands modèles les dépassant largement. »
Le document se termine ainsi :
« Nous montrons que ReaLM surpasse les approches précédentes et fonctionne à peu près aussi bien que le LLM de pointe actuel, GPT-4, bien qu’il contienne beaucoup moins de paramètres, y compris pour les références à l’écran. Il surpasse également GPT-4 pour les utilisateurs. expressions spécifiques du domaine, faisant ainsi de ReaLM le choix idéal pour un système de résolution de référence pratique pouvant exister sur l’appareil sans compromettre les performances. »
La technologie intégrée aux appareils sans compromettre les performances semble essentielle pour Apple. Nous espérons que les prochaines années de développement de la plateforme seront intéressantes, à commencer par iOS 18 et la WWDC 2024 le 10 juin.