
En décembre 2023, une équipe de neuf chercheurs a publié une étude intitulée FERRET : Refer and Ground Anything Anywhere at Any Granularity. Ils y présentaient un modèle de langage multimodal (MLLM) capable de comprendre des références en langage naturel aux parties spécifiques d’une image.
Depuis, Apple a enrichi la famille des modèles Ferret avec plusieurs publications, dont Ferret-UI et Ferret-UI 2, qui ont élargi les capacités du modèle original. Ces variantes se sont concentrées sur la compréhension des interfaces utilisateur (UI) mobiles, surmontant ainsi les limitations des MLLM destinés à des domaines généraux.
Une approche innovante avec Ferret-UI Lite
Récemment, Apple a lancé Ferret-UI Lite, un modèle léger avec seulement 3 milliards de paramètres, conçu pour fonctionner sur des appareils tout en restant compétitif par rapport à des agents GUI beaucoup plus volumineux.
Les chercheurs notent que « la majorité des agents GUI existants se concentrent sur de grands modèles de base ». Cependant, la capacité de raisonnement et de planification des modèles serveur volumineux rend leur utilisation sur appareil peu pratique. Avec Ferret-UI Lite, ces limitations sont surmontées grâce à l’utilisation de données d’entraînement réelles et synthétiques provenant de multiples domaines d’interface utilisateur.
Techniques de recadrage et d’analyse
Le modèle intègre des techniques de recadrage et de zoom en temps réel pour mieux appréhender des segments spécifiques de l’interface. Cette approche permet de compenser les limites inhérentes à un modèle de petite taille en maximisant les détails analysés. En effet, Ferret-UI Lite génère également ses propres données d’entraînement, en interagissant directement avec des plateformes GUI en direct.
Son pipeline d’entraînement capture la complexité des interactions réelles, prenant en compte les erreurs et les états inattendus, ce qui améliore considérablement l’efficacité de l’apprentissage.
Applications et performances
Bien que Ferret-UI Lite ait montré de bonnes performances lors de tâches simples et à court terme, il n’a pas brillé dans des interactions plus complexes. Cependant, son architecture légère offre une solution privée, ne nécessitant pas d’envoi de données vers le cloud, ce qui lui confère un atout majeur en termes de sécurité.








