
Apple a récemment publié un modèle impressionnant, nommé SHARP, capable de reconstruire une scène 3D photoréaliste à partir d’une unique image en moins d’une seconde. Ce développement a été dévoilé dans une étude intitulée Sharp Monocular View Synthesis in Less Than a Second, où les chercheurs expliquent comment ils ont formé le modèle pour maintenir des distances et échelles conformes à la réalité.
Une technologie révolutionnaire
Dans cette étude, les chercheurs d’Apple présentent SHARP comme une approche innovante de synthèse de vues photoréalistes. Selon leurs explications :
Nous proposons SHARP, une méthode de synthèse de vues photoréalistes à partir d’une seule image. À partir d’une photographie, SHARP régresse les paramètres d’une représentation 3D gaussienne de la scène affichée. Cela se fait en moins d’une seconde sur un GPU standard grâce à un unique passage feedforward dans un réseau neuronal.
Fonctionnement du modèle
L’approche de SHARP génère une représentation 3D gaussienne, qui peut ensuite être rendue en temps réel, produisant des images photoréalistes haute résolution pour des angles de vue à proximité. La représentation est métrique, avec une échelle absolue, prenant en charge les mouvements de la caméra. Les résultats expérimentaux montrent que SHARP atteint une généralisation robuste sans entraînement préalable sur plusieurs ensembles de données, établissant un nouveau record sur de nombreux ensembles, tout en réduisant le temps de synthèse de trois ordres de grandeur.
Exemples de résultats
Pour obtenir cette représentation 3D, la plupart des approches de splatting gaussien nécessitent plusieurs images d’une même scène, prises sous différents angles. En revanche, SHARP peut prédire la scène entière en utilisant une seule photo. Grâce à un entraînement sur de grandes quantités de données synthétiques et du monde réel, le modèle apprend les motifs communs de profondeur et de géométrie.
En conséquence, lorsqu’une nouvelle photo est fournie, le modèle estime la profondeur, l’affine selon ses connaissances, puis prédit la position et l’apparence de millions de gaussiennes 3D en un seul passage.
Limites et performances
Cependant, il existe un compromis : SHARP restitue fidèlement les points de vue proches, sans synthétiser les parties entièrement invisibles de la scène. Cela signifie que les utilisateurs ne peuvent pas s’éloigner trop du point de vue d’origine, car le modèle ne génère pas les parties non visibles de la scène.
C’est ainsi qu’Apple garantit que le modèle fonctionne assez rapidement pour produire les résultats en moins d’une seconde, tout en s’assurant de leur crédibilité. Des utilisateurs ont déjà commencé à partager leurs résultats sur GitHub, apportant une visibilité supplémentaire à cette technologie prometteuse.
Retours des utilisateurs
- « Le modèle SHARP d’Apple génère des représentations 3D photoréalistes à partir d’une seule image en quelques secondes. »
- « Une nouvelle étude d’Apple – Sharp Monocular View Synthesis in Less than a Second«
- « Quel modèle impressionnant d’Apple : ‘Sharp Monocular View Synthesis' »








