Des chercheurs d’Apple ont récemment publié une étude sur Manzano, un modèle multimodal qui allie compréhension visuelle et génération d’images à partir de texte, tout en réduisant considérablement les compromis de performance et de qualité rencontrés dans les implementations actuelles.

Une approche captivante d’un problème de pointe

Dans l’étude intitulée MANZANO : A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer, une équipe d’une trentaine de chercheurs d’Apple décrit une approche unifiée novatrice qui permet à la fois la compréhension d’images et la génération d’images à partir de texte dans un seul modèle multimodal.

Cela est crucial, car les modèles multimodaux unifiés capables de générer des images existent souvent avec des compromis : soit ils sacrifient la compréhension visuelle pour privilégier la génération d’images autoregressive, soit ils donnent priorité à la compréhension, affectant la fidélité générative. En d’autres termes, ils peinent souvent à exceller dans les deux tâches simultanément.

Les défis des architectures multimodales

Selon les chercheurs, une raison clé de cet écart réside dans la nature conflictuelle de la tokenisation visuelle. La génération autoregressive préfère généralement les tokens d’images discrets, tandis que la compréhension bénéficie d’encodages continus. De nombreux modèles adoptent une stratégie de double tokenizer, utilisant un encodeur sémantique pour des caractéristiques riches et continues, tout en faisant appel à un tokenizer quantifié comme VQ-VAE pour gérer la génération. Toutefois, cela force le modèle linguistique à gérer deux types de tokens d’image différents, un provenant de l’espace sémantique de haut niveau et l’autre de l’espace spatial de bas niveau, créant un conflit de tâche significatif.

Alors que certaines solutions comme les Mixture-of-Transformers (MoT) peuvent atténuer ce problème en dédiant des voies séparées pour chaque tâche, elles s’avèrent inefficaces en termes de paramètres et sont souvent incompatibles avec les architectures modernes de Mixture-of-Experts.

Présentation de Manzano

Manzano unifie les tâches de compréhension et de génération en utilisant un modèle linguistique autoregressif pour prédire ce que l’image devrait contenir sur le plan sémantique, puis transmet ces prédictions à un décodeur de diffusion qui rend les pixels réels.

Les chercheurs expliquent que Manzano combine trois composants dans son architecture :

  • Un tokenizer hybride qui produit à la fois des représentations visuelles continues et discrètes ;
  • Un décodeur LLM qui accepte des tokens textuels et/ou des embeddings d’images continues et prédit de manière autoregressive les prochains tokens d’image ou de texte à partir d’un vocabulaire commun ;
  • Un décodeur d’image qui rend les pixels d’image à partir des tokens d’image prédits.

Cette approche a permis à Manzano de gérer des prompts contre-intuitifs défiant la physique, tels que « L’oiseau vole en dessous de l’éléphant », de manière comparable à GPT-4o et à Nano Banana, affirment les chercheurs.

Performances remarquables

Les chercheurs soulignent que, dans plusieurs benchmarks, les modèles Manzano 3B et 30B obtiennent des performances supérieures ou comparables aux autres LLM multimodaux unifiés à la pointe de la technologie.

Apple a testé Manzano à travers plusieurs tailles, d’un modèle de 300 millions de paramètres à une version de 30 milliards de paramètres, permettant d’évaluer comment la performance multimodale unifiée s’améliore avec l’échelle.

En outre, Manzano excelle également dans des tâches d’édition d’images, y compris l’édition guidée par des instructions, le transfert de style, l’inpainting/outpainting et l’estimation de profondeur.

Pour consulter l’étude complète, avec des détails techniques approfondis concernant l’entraînement du tokenizer hybride de Manzano, la conception du décodeur de diffusion, les expériences de mise à l’échelle et les évaluations humaines, suivez ce lien ici.

Partager un commentaire