
Une équipe de chercheurs d’Apple a développé un nouveau cadre qui permet un rendu de scènes 3D haute résolution avec une efficacité nettement accrue. Voici les détails de cette étude.
Contexte
Dans une nouvelle étude intitulée Less Gaussians, Texture More: 4K Feed-Forward Textured Splatting, un groupe de chercheurs d’Apple et de l’Université de Hong Kong propose un cadre, nommé LGTM.
Les chercheurs expliquent que, lorsque la résolution augmente, les méthodes existantes de feed-forward 3D Gaussian Splatting deviennent rapidement trop coûteuses à exécuter, rendant les scènes haute résolution de plus en plus impraticables.
Cette méthode permet à un modèle d’IA de transformer rapidement une ou quelques images en scène 3D, visualisable sous de nouveaux angles.
Récemment, nous avons couvert SPLAT, un modèle open-source développé par Apple, qui utilise le feed-forward 3D Gaussian Splatting pour créer des vues 3D à partir d’une image 2D unique, et qui a montré des résultats impressionnants.
LGTM
Pour résoudre ce problème, les chercheurs ont proposé le cadre LGTM, qui « découple la complexité géométrique de la résolution de rendu ». En d’autres termes, il dissocie la structure d’une scène de son détail visuel, permettant au système de maintenir la géométrie simple tout en utilisant des textures pour ajouter un détail haute résolution.
Il est important de noter que LGTM n’est pas un modèle autonome. Au contraire, il s’appuie sur les méthodes existantes, améliorant leur représentation des détails en superposant des prédictions de texture à leur géométrie.
Ils ont appliqué une approche en deux étapes : d’abord, faire apprendre au modèle la structure de la scène à partir d’images basse résolution, puis vérifier la sortie par rapport à des vérités terrain haute résolution. Cela a poussé le modèle à apprendre à produire une géométrie correcte à des résolutions de 2K ou 4K, évitant ainsi lacunes ou artefacts. Ensuite, ils ont introduit un second réseau se concentrant sur l’apparence, prenant des images haute résolution pour apprendre des textures détaillées pour chaque élément géométrique.
Le cadre résultant peut mettre à niveau les systèmes existants pour générer des scènes détaillées en 4K sans l’explosion quadratique des besoins informatiques qui a rendu les méthodes précédentes impraticables à des résolutions plus élevées.
Implications pour l’Apple Vision Pro
Actuellement, l’Apple Vision Pro dispose de deux écrans totalisant environ 23 millions de pixels, soit plus de pixels que la plupart des télévisions 4K. Comme l’illustre l’étude, le feed-forward 3D Gaussian Splatting peine à fonctionner à ces résolutions. Les écrans peuvent encaisser, mais générer la scène rapidement et avec précision devient un goulet d’étranglement computationnel.
LGTM pourrait aider à résoudre ce problème sur l’Apple Vision Pro, offrant ainsi une performance plus fluide et des visuels plus nets dans des situations où le feed-forward 3D Gaussian Splatting est nécessaire.
En pratique, cela pourrait ouvrir davantage d’opportunités pour profiter d’environnements immersifs détaillés ou d’expériences de rendu réalistes, tout en maîtrisant la demande de traitement.
Pour voir LGTM en action, vous pouvez consulter la page du projet, qui présente des méthodes comme NoPoSplat, DepthSplat, et Flash3D, avec et sans LGTM.








