Les chercheurs d’Apple ont publié un nouveau modèle d’IA open source capable de modifier les images en fonction des instructions en langage naturel de l’utilisateur.

MLLM-Guided Image Editing, MGIE Apple, image IA

Appelé « MGIE », qui signifie MLLM-Guided Image Editing, le système utilise de grands modèles de langage multimodal (MLLM) pour interpréter les demandes des utilisateurs et effectuer des manipulations au niveau des pixels.

Le modèle est capable de modifier divers aspects des images. Les améliorations photo peuvent inclure la luminosité, le contraste ou la netteté, ou l’application d’effets artistiques tels que le dessin. L’édition locale peut modifier la forme, la taille, la couleur ou la texture de régions ou d’objets spécifiques dans une image, tandis que les modifications de style Photoshop peuvent inclure le recadrage, le redimensionnement, la rotation et l’ajout de filtres ou même la modification d’arrière-plans et la fusion d’images.

MLLM-Guided Image Editing, MGIE Apple, image IA

Une entrée d’utilisateur pour une photo d’une pizza pourrait être de « la rendre plus saine ». À ce stade, le modèle peut ajouter des garnitures végétales, comme des tomates et des herbes.

Une demande de saisie d’amélioration de photo peut ajouter du contraste pour simuler plus de lumière, tandis qu’une modification de style Photoshop peut être effectuée en demandant au modèle de supprimer des personnes de l’arrière-plan d’une photo.

Apple a collaboré avec des chercheurs de l’Université de Californie pour créer MGIE, qui a été présenté dans un article lors de la Conférence internationale sur les représentations d’apprentissage (ICLR) 2024. Le modèle est disponible sur GitHub et comprend du code, des données et des modèles pré-entraînés.

Avec le développement d’un Apple GPT, l’entreprise entre de plus en plus dans le monde de l’IA.

Partager un commentaire