Des chercheurs d’Apple ont développé un modèle d’IA capable de reconstituer un objet 3D à partir d’une seule image, tout en maintenant des effets de réflexion, de lumière et d’autres détails cohérents selon différents angles de vue.

Un peu de contexte

Bien que le concept d’espace latent en apprentissage automatique ne soit pas exactement nouveau, il a gagné en popularité ces dernières années, notamment avec l’explosion des modèles d’IA basés sur l’architecture des transformateurs.

En résumé, l’espace latent, ou espace d’embedding, décrit un processus consistant à :

  • Réduire des informations en représentations numériques de leurs concepts ;
  • Organiser ces nombres dans un espace multidimensionnel, permettant ainsi de calculer les distances entre eux pour chaque dimension.

Un exemple classique consiste à obtenir la représentation mathématique du mot « roi », à soustraire celle de « homme », puis à ajouter celle de « femme », ce qui nous mène à une région multidimensionnelle proche de « reine ».

En termes pratiques, stocker des informations comme des représentations mathématiques dans l’espace latent rend plus rapide et moins coûteux sur le plan computationnel la mesure des distances et l’estimation de ce qui doit être généré.

LITO : Tokenisation du champ lumineux de surface

Dans leur étude récente intitulée LiTo : Surface Light Field Tokenization, les chercheurs d’Apple proposent une représentation 3D latente qui modélise conjointement la géométrie des objets et leur apparence dépendante de la vue.

Autrement dit, ils ont créé un moyen de représenter, dans l’espace latent, non seulement comment reconstruire un objet en trois dimensions, mais aussi comment la lumière interagissant avec celui-ci devrait apparaître sous différents angles.

Ils expliquent :

« La plupart des travaux antérieurs se concentraient soit sur la reconstruction de la géométrie 3D, soit sur la prédiction d’une apparence diffuse indépendante de la vue, et ainsi avaient du mal à capturer les effets réalistes dépendants de la vue. Notre approche exploite le fait que les images RGB-profondeur fournissent des échantillons d’un champ lumineux de surface. En encodant des sous-échantillons aléatoires de ce champ lumineux dans un ensemble compact de vecteurs latents, notre modèle apprend à représenter à la fois la géométrie et l’apparence au sein d’un espace latent 3D unifié. Cette représentation reproduit des effets dépendants de la vue tels que les reflets spéculaires et les réflexions de Fresnel sous un éclairage complexe. »

De plus, les chercheurs ont réussi à entraîner le modèle pour qu’il puisse réaliser cela à partir d’une seule image, contrairement aux méthodes les plus courantes qui nécessitent des images sous différents angles pour permettre la reconstruction 3D.

Entraînement de LITO

Pour entraîner le modèle, les chercheurs ont sélectionné des milliers d’objets rendus sous 150 angles de vue différents et 3 conditions d’éclairage.

Ainsi, au lieu de fournir toutes ces informations directement au modèle, le système sélectionnait aléatoirement de petits sous-ensembles de ces échantillons et les compressait en une représentation latente.

Ensuite, le décodeur a été formé pour reconstruire l’objet complet et son apparence sous différents angles et conditions d’éclairage, à partir de ce sous-ensemble de données.

Au cours de l’entraînement, le système a appris une représentation latente capturant à la fois la géométrie de l’objet et comment son apparence change selon la direction de vue.

Une fois cette étape terminée, ils ont formé un autre modèle capable de prendre une image unique d’un objet et de prédire la représentation latente qui lui correspond. Le décodeur reconstitue alors l’objet 3D complet, y compris la façon dont son apparence varie en fonction de l’angle de vue.

Pour voir quelques comparaisons de reconstruction entre LiTo et un modèle nommé TRELLIS, consultez la page du projet ici.

Partager un commentaire