
En s’appuyant sur un modèle préalablement baptisé UniGen, une équipe de chercheurs d’Apple présente UniGen 1.5, un système capable de comprendre, générer et modifier des images au sein d’un unique modèle. Voici les détails.
ÉVOLUTION D’UNIGEN
En mai dernier, les chercheurs d’Apple avaient publié une étude intitulée UniGen : Enhanced Training & Test-Time Strategies for Unified Multimodal Understanding and Generation. Dans ce travail, ils avaient introduit un modèle de langage multimodal unifié capable à la fois de comprendre et de générer des images dans un seul système, évitant ainsi l’utilisation de modèles séparés pour chaque tâche.
UNIGEN-1.5 DÉCRYPTÉ
Cette nouvelle recherche étend le concept d’UniGen en ajoutant des capacités de modification d’image, tout en restant dans un cadre unifié, plutôt que de fragmenter la compréhension, la génération et l’édition à travers différents systèmes.
Unifier ces capacités dans un seul système représente un défi, car la compréhension et la génération d’images exigent des approches différentes. Cependant, les chercheurs soutiennent qu’un modèle unifié peut tirer parti de ses capacités de compréhension pour améliorer sa performance en génération.
Selon eux, l’un des principaux défis dans l’édition d’images est que les modèles ont souvent du mal à saisir pleinement des instructions d’édition complexes, en particulier lorsque les modifications sont subtiles ou très spécifiques.
Pour y remédier, UniGen-1.5 introduit une nouvelle étape de post-formation appelée Edit Instruction Alignment :
« De plus, nous observons que le modèle reste inadéquat dans la gestion de divers scénarios d’édition après un ajustement supervisé en raison de sa compréhension insuffisante des instructions d’édition. Nous proposons donc Edit Instruction Alignment comme une étape légère post-SFT pour renforcer l’alignement entre les instructions d’édition et la sémantique de l’image cible. Plus précisément, elle prend l’image conditionnelle et l’instruction comme entrées et est optimisée pour prédire le contenu sémantique de l’image cible via des descriptions textuelles. Les résultats expérimentaux suggèrent que cette étape est très bénéfique pour améliorer la performance d’édition. »
Autrement dit, avant de demander au modèle d’améliorer ses rendus à travers l’apprentissage par renforcement (qui entraîne le modèle en récompensant les meilleurs rendus et en pénalisant les moins bons), les chercheurs l’entraînent préalablement à inférer une description textuelle détaillée de ce que l’image éditée devrait contenir, à partir de l’image originale et de l’instruction d’édition.
Cette étape intermédiaire aide le modèle à mieux internaliser la modification souhaitée avant de générer l’image finale.
PERFORMANCES COMPÉTITIVES
Les chercheurs appliquent ensuite l’apprentissage par renforcement d’une manière qui constitue sans doute la contribution la plus significative de l’article : ils utilisent le même système de récompense pour la génération et l’édition d’images, ce qui était précédemment un défi, car les modifications peuvent aller de légers ajustements à des transformations complètes.
En conséquence, lorsqu’il a été testé sur plusieurs références standards de l’industrie mesurant la façon dont les modèles respectent les instructions, maintiennent la qualité visuelle et gèrent les modifications complexes, UniGen-1.5 égalise ou surpasse plusieurs modèles de langage multimodal à la pointe de la technologie :
« À travers ces efforts, UniGen-1.5 fournit une base plus solide pour faire avancer la recherche sur les MLLM unifiés et établit des performances compétitives sur les benchmarks de compréhension, génération et édition d’images. Les résultats expérimentaux montrent qu’UniGen-1.5 obtient 0,89 et 86,83 aux tests GenEval et DPG-Bench, surpassant de manière significative des méthodes récentes telles que BAGEL et BLIP3o. Pour l’édition d’images, UniGen-1.5 atteint un score global de 4,31 sur ImgEdit, dépassant des modèles open-source récents tels qu’OminiGen2 et étant comparable à des modèles propriétaires comme GPT-Image-1. »
Voici quelques exemples des capacités de génération d’images à partir de texte et d’édition d’images d’UniGen-1.5 :
Les chercheurs notent cependant qu’UniGen-1.5 rencontre des difficultés avec la génération de texte, ainsi qu’avec la cohérence d’identité dans certaines circonstances :
« Les cas d’échec d’UniGen-1.5 dans les tâches de génération d’images à partir de texte et d’édition d’images sont illustrés dans la Figure A. Dans la première rangée, nous présentons les exemples où UniGen-1.5 n’arrive pas à rendre avec précision les caractères textuels, car le détokeniseur léger a du mal à contrôler les détails structurels fins requis pour la génération de texte. Dans la deuxième rangée, nous affichons deux exemples avec des décalages d’identité visibles mis en évidence par le cercle, par exemple, les changements dans la texture et la forme du pelage du chat, ainsi que les différences de couleur des plumes de l’oiseau. UniGen-1.5 doit progresser pour surmonter ces limitations. »
Vous pouvez consulter l’étude complète ici UniGen-1.5: Enhancing Image Generation and Editing through Reward Unification in Reinforcement Learning.








