Les chercheurs d’Apple ont mis au point une nouvelle méthode d’entraînement des modèles d’IA pour la génération de légendes d’images, offrant des descriptions plus précises et détaillées tout en utilisant des modèles beaucoup plus petits. Voici les détails.

Nouveau modèle pour accélérer l’entraînement des IA multimodales

Dans une étude intitulée RubiCap : apprentissage par renforcement guidé par des rubriques pour le captioning dense d’images, une équipe de chercheurs d’Apple a collaboré avec l’Université du Wisconsin-Madison pour développer un nouveau cadre pour un modèle de captioning dense d’images, atteignant des résultats à la pointe de la technologie sur plusieurs benchmarks.

Le captioning dense d’images consiste à générer des descriptions détaillées de chaque élément et région d’une image, plutôt qu’un simple résumé global. En d’autres termes, cela permet d’identifier de nombreux éléments et régions dans une image, et de les décrire avec un grand niveau de détail, offrant ainsi une compréhension beaucoup plus riche de la scène.

Une nouvelle approche pour surmonter les limitations actuelles

Le problème, selon les chercheurs, est que les approches basées sur l’IA pour former des modèles de captioning dense d’images ont tendance à être lacunaires. « Le captioning dense d’images est essentiel pour l’alignement multimodal dans le préentraînement vision-langage et la génération de texte à partir d’images, mais la mise à l’échelle des annotations de qualité experte est prohibitive. »

Pour surmonter ces limitations, ils ont proposé un nouveau cadre qui adopte une approche intéressante. Ils ont échantillonné aléatoirement 50 000 images à partir de deux ensembles de données d’entraînement, PixMoCap et DenseFusion-4V-100K. Pour chaque image, le système a généré plusieurs options de légendes en utilisant un ensemble de modèles de vision-langage existants, y compris Gemini 2.5 Pro, GPT-5, et d’autres.

Simultanément, le modèle entraîné sous RubiCap a produit sa propre légende pour chaque image. Ensuite, RubiCap a utilisé Gemini 2.5 Pro pour analyser l’image avec les légendes proposées et la sortie générée par le modèle, identifiant les accords et les erreurs entre les modèles.

Des résultats impressionnants avec des modèles compacts

Finalement, les chercheurs ont produit trois modèles : RubiCap-2B, RubiCap-3B et RubiCap-7B, avec respectivement 2, 3 et 7 milliards de paramètres. Comparativement aux approches actuelles, ces derniers ont obtenu de surprenants résultats, dépassant des modèles allant jusqu’à 72 milliards de paramètres.

« À travers de nombreux benchmarks, RubiCap atteint les meilleurs taux de victoire sur CapArena, surpassant la distillation supervisée et les méthodes antérieures d’apprentissage par renforcement. » Notamment, le modèle de 3 milliards de paramètres a surpassé son homologue de plus grande taille sur certains benchmarks, prouvant qu’un modèle de captioning dense efficace ne nécessite pas de grande échelle pour fournir des résultats de haute qualité.

Partager un commentaire