Apple a récemment publié Pico-Banana-400K, un jeu de données de recherche composé de 400 000 images, créé à partir des modèles Gemini-2.5 de Google. Cette initiative s’inscrit dans le cadre d’une étude intitulée « Pico-Banana-400K : un jeu de données à grande échelle pour l’édition d’images guidée par texte ».

En plus de l’étude, le géant de la technologie a mis à disposition ce vaste ensemble de données sous une licence de recherche non commerciale, permettant ainsi aux chercheurs de l’explorer, à condition qu’il ne soit pas utilisé à des fins commerciales.

QU’EST-CE QUE C’EST ?

Il y a quelques mois, Google avait lancé le modèle Gemini-2.5-Flash-Image, aussi connu sous le nom de Nanon-Banana, qui représente l’un des modèles d’édition d’images les plus sophistiqués du moment. Malgré les avancées réalisées, comme le soulignent les chercheurs d’Apple, « la recherche ouverte reste limitée par le manque de jeux de données d’édition de grande envergure, de haute qualité et entièrement partageables. Les ensembles de données existants reposent souvent sur des générations synthétiques à partir de modèles propriétaires ou des sous-ensembles limités, entraînant des décalages de domaine, des distributions déséquilibrées des types d’édition et un contrôle de qualité peu cohérent, freinant ainsi le développement de modèles d’édition robustes. »

Apple a donc décidé de remédier à cette situation.

CONSTRUCTION DU PICO-BANANA-400K

La première étape pour Apple a été de sélectionner un nombre non spécifié de photographies réelles d’OpenImages, veillant à garantir une couverture adéquate des humains, objets et scènes textuelles.

Ils ont ensuite élaboré une liste de 35 types de modifications que l’utilisateur pourrait demander au modèle, regroupées en huit catégories. Parmi celles-ci :

  • Pixel & Photométrie : Ajouter du grain de film ou un filtre vintage.
  • Centré sur l’humain : Figurine de style Funko-Pop de la personne.
  • Composition de scène & Multi-sujets : Modifier les conditions météorologiques (ensoleillé/pluvieux/neigeux).
  • Sémantique au niveau de l’objet : Relocaliser un objet (changer sa position/relation spatiale).
  • Échelle : Zoomer.

Les chercheurs téléchargeaient une image sur Nanon-Banana, accompagnée d’une de ces demandes. Une fois que Nanon-Banana avait généré l’image modifiée, les chercheurs la faisaient analyser par Gemini-2.5-Pro, qui l’approuvait ou la rejetait selon la conformité aux instructions et à la qualité visuelle.

Le résultat a été le Pico-Banana-400K, qui comprend des images produites à travers des éditions à tour unique (une seule demande), des séquences d’édition multi-tours (plusieurs demandes itératives) et des paires de préférences comparant des résultats réussis et échoués (permettant ainsi aux modèles d’apprendre ce à quoi ressemblent des résultats indésirables).

Bien qu’ils reconnaissent les limitations de Nanon-Banana en matière d’édition spatiale fine, d’extrapolation de mise en page et de typographie, les chercheurs espèrent que Pico-Banana-400K servira de « base solide pour entraîner et évaluer la prochaine génération de modèles d’édition d’images guidée par texte ».

Vous pouvez trouver l’étude sur arXiv et le jeu de données est disponible gratuitement sur GitHub.

Partager un commentaire