
Il y a quelques mois, Apple a lancé FastVLM, un Modèle de Langage Visuel (VLM) offrant un traitement d’image haute résolution quasi instantané. Désormais, vous pouvez l’essayer sur un Mac équipé de la puce Apple Silicon. Voici comment procéder.
Dans notre précédent article, nous avons expliqué que FastVLM utilise MLX, le cadre de ML open-source d’Apple conçu pour la puce Apple Silicon, afin d’offrir un sous-titrage vidéo jusqu’à 85 fois plus rapide tout en étant plus de trois fois plus compact que des modèles similaires.
Depuis, Apple a avancé sur le projet, maintenant accessible sur Hugging Face, et non plus uniquement sur GitHub. Vous pouvez charger la version allégée, FastVLM-0.5B, directement sur votre navigateur et en découvrir les fonctionnalités.
Selon votre matériel, le chargement peut prendre un peu de temps ; par exemple, cela a pris quelques minutes sur mon MacBook Pro M2 Pro de 16 Go. Une fois chargé, le modèle a commencé à décrire avec précision mon apparence, la pièce derrière moi, diverses expressions et des objets que j’ai amenés à l’écran.
Dans le coin inférieur gauche, vous pouvez ajuster le prompt que le modèle prendra en compte pendant que le sous-titre se met à jour en temps réel, ou choisir parmi quelques suggestions, telles que :
- Décrivez ce que vous voyez en une phrase.
- Quelle est la couleur de ma chemise ?
- Identifiez tout texte ou contenu écrit visible.
- Quelles émotions ou actions sont représentées ?
- Nommez l’objet que je tiens dans ma main.
Si vous souhaitez aller plus loin, vous pouvez essayer d’utiliser une application de caméra virtuelle pour alimenter la vidéo dans l’outil et observer comment il décrit instantanément plusieurs scènes en détail, rendant parfois difficile la compréhension de ce qui se passe. Naturellement, le cas d’utilisation réel serait différent, mais cela souligne la rapidité et la précision du modèle.
Un aspect particulièrement intéressant de cette expérience est qu’elle s’exécute localement dans le navigateur, ce qui signifie qu’aucune donnée ne quitte l’appareil et qu’elle peut même fonctionner hors ligne. Cela représente un excellent cas d’utilisation potentiel pour les appareils portables et les technologies d’assistance, où la légèreté et la faible latence sont primordiales pour débloquer de meilleures utilisations.
Il convient de noter que la démo fonctionne avec le modèle de 0,5 milliard de paramètres, tandis que la famille FastVLM inclut également des variantes plus grandes et plus puissantes avec 1,5 milliard et 7 milliards de paramètres. Avec des modèles plus grands, les performances et la vitesse pourraient encore s’améliorer, bien que les exécuter directement dans le navigateur ne soit probablement pas envisageable.








