
Dans un monde où les rumeurs abondent concernant les projets d’Apple en matière de dispositifs portables équipés de caméras, une application méconnue mais prometteuse de l’intelligence artificielle mérite une attention particulière : SceneScout. Ce prototype de recherche, développé en collaboration avec l’université de Columbia, illustre comment l’IA peut transformer la navigation pour les personnes aveugles ou malvoyantes.
Une navigation repensée pour les malvoyants
Les chercheurs d’Apple et de l’université de Columbia soulignent une réalité cruciale : les personnes aveugles ou malvoyantes hésitent souvent à voyager seules dans des environnements inconnus. Les outils de navigation traditionnels se concentrent principalement sur des instructions de type « tournez à droite » ou sur des points d’intérêt, sans fournir un contexte visuel détaillé. Les images de vues de rue, riches en informations, demeurent inaccessibles à ce public.
Comment fonctionne SceneScout ?
Pour combler cette lacune, SceneScout combine les API d’Apple Maps avec un modèle de langage multimodal avancé pour proposer des descriptions générées par IA des images de rue. Les utilisateurs ne se contentent plus d’orientations basiques mais peuvent explorer un itinéraire dans son ensemble ou découvrir un quartier, avec des descriptions adaptées à leurs besoins spécifiques.
Modes d’interaction
- Prévisualisation de l’itinéraire : Permet aux utilisateurs de comprendre ce qu’ils vont rencontrer sur leur chemin, en décrivant par exemple la qualité des trottoirs et les intersections.
- Exploration virtuelle : Plus ouverte, cette fonctionnalité permet aux utilisateurs d’exprimer leurs recherches (comme un quartier calme proche de parcs) et l’IA les aide à naviguer en conséquence.
Des premiers résultats encourageants mais des défis à relever
Lors des tests avec des utilisateurs malvoyants, les résultats étaient prometteurs. Les participants ont trouvé les modes d’Exploration virtuelle et de Prévisualisation d’itinéraire très utiles et pertinents. Cependant, certaines limitations étaient apparentes. Bien que 72 % des descriptions générées étaient précises, quelques hallucinations mineures se sont glissées dans les descriptions. De plus, les utilisateurs ont suggéré de travailler à une meilleure précision et à une adaptation dynamique du système à leurs préférences.
Vers une application en temps réel
Les participants ont exprimé un fort désir d’accéder à des descriptions en temps réel lors de leurs promenades, imaginant des applications qui utiliseraient des écouteurs à conduction osseuse ou un mode de transparence pour fournir des informations pertinentes. Cela ouvrirait la voie à une navigation encore plus fluide et réactive, répondant ainsi aux besoins des utilisateurs tout en tenant compte de leur environnement immédiat.
Bien que SceneScout ne soit pas un produit commercialisé, ses recherches montrent clairement la direction vers laquelle l’intelligence artificielle, les dispositifs portables, et la vision par ordinateur évoluent, avec l’espoir d’améliorer significativement l’accessibilité pour les personnes aveugles ou malvoyantes.








