La équipe de Machine Learning d’Apple, en collaboration avec des chercheurs de l’Université de Nanjing et de l’Université des Sciences et Technologies de Hong Kong, a dévoilé un modèle d’IA 3D intrigant, baptisé Matrix3D.

Ce modèle, connu sous le nom de Large Photogrammetry Model, est capable de reconstruire des objets et des scènes 3D à partir de simplement quelques photos 2D, mais avec une différence majeure par rapport aux processus actuels.

Une approche simplifiée de la photogrammétrie

Avant tout, parlons de la photogrammétrie. Cette technique consiste à utiliser des photographies pour effectuer des mesures dans le but de créer des modèles ou des cartes 3D. Actuellement, ce procédé nécessite l’utilisation de différents modèles pour des étapes comme l’estimation de pose et la prédiction de profondeur, ce qui peut entraîner des inefficacités et des erreurs.

Matrix3D simplifie cela en réalisant l’ensemble du processus en une seule étape. Il prend en compte les images, les paramètres de la caméra (comme l’angle et la longueur focale) et les données de profondeur, en les traitant à l’aide d’une architecture unifiée. Cela non seulement simplifie le flux de travail mais améliore également la précision.

Une formation innovante pour des résultats prometteurs

Ce qui est encore plus fascinant, c’est la manière dont le modèle a été formé. Les chercheurs ont utilisé une stratégie d’apprentissage masqué, très similaire aux premiers systèmes d’IA basés sur les Transformateurs, qui ont contribué à l’émergence des premières versions de ChatGPT. Ils ont caché aléatoirement des parties des données d’entrée durant le processus d’apprentissage, ce qui a contraint Matrix3D à apprendre comment combler les lacunes. Cette technique est cruciale car elle permet à Matrix3D de s’entraîner efficacement même avec des ensembles de données plus petits ou incomplets.

Les résultats sont impressionnants. Avec seulement trois images d’entrée, Matrix3D peut générer des reconstructions 3D détaillées d’objets et même d’environnements entiers, ce qui pourrait avoir des applications très intéressantes pour des casques immersifs comme l’Apple Vision Pro.

Accès au modèle et à davantage de ressources

Les chercheurs ont rendu le code source de Matrix3D disponible sur GitHub et ont publié leur article sur arXiv. Ils ont également créé un site web où il est possible de visionner des vidéos d’exemples et même d’interagir avec quelques recréations de nuages de points d’objets et d’environnements.

Partager un commentaire