Depuis plusieurs mois, des rumeurs et des rapports circulent sur les projets d’Apple concernant des wearables dotés d’intelligence artificielle. Actuellement, il semble que les concurrents directs d’Apple aux lunettes Meta Ray-Bans pourraient être lancés aux alentours de 2027, accompagnés de nouveaux AirPods équipés de caméras, qui offriront également leurs propres fonctionnalités d’IA.

Bien qu’il soit encore prématuré de savoir à quoi ils ressembleront précisément, Apple a récemment partagé un aperçu du fonctionnement de leur IA.

En 2023, l’équipe de recherche en apprentissage machine d’Apple a publié MLX, un cadre d’apprentissage machine ouvert spécifiquement conçu pour les appareils Apple Silicon.

En résumé, MLX propose un moyen léger d’entraîner et d’exécuter des modèles localement sur les appareils d’Apple, tout en restant familier pour les développeurs habitués aux frameworks et langages traditionnellement associés au développement de l’IA.

FastVLM : un nouveau modèle visuel rapide

Apple a récemment lancé FastVLM, un modèle de langage visuel (VLM) qui s’appuie sur MLX pour offrir un traitement d’images haute résolution presque instantané, tout en nécessitant significativement moins de ressources que les modèles similaires. Comme l’explique Apple :

« Sur la base d’une analyse d’efficacité complète de l’interaction entre la résolution d’image, la latence visuelle, le nombre de tokens et la taille du LLM, nous présentons FastVLM – un modèle qui atteint un compromis optimisé entre latence, taille du modèle et précision. »

Au cœur de FastVLM se trouve un encodeur appelé FastViTHD, conçu spécifiquement pour des performances VLM efficaces sur des images haute résolution. Ce modèle est jusqu’à 3,2 fois plus rapide et 3,6 fois plus compact que les modèles similaires, ce qui est essentiel pour que votre appareil puisse traiter les informations localement, sans dépendre du cloud pour générer une réponse à la demande de l’utilisateur.

De plus, FastVLM a été conçu pour produire moins de tokens, ce qui est également clé lors de l’inférence, lorsque le modèle interprète les données et génère une réponse. Selon Apple, son modèle a un temps de réponse initial 85 fois plus rapide que les modèles similaires, c’est-à-dire le temps nécessaire pour que l’utilisateur envoie un premier prompt et reçoive le premier token de la réponse. Moins de tokens sur un modèle plus rapide et léger signifie un traitement plus rapide.

FastVLM est disponible sur GitHub, tandis que le rapport peut être consulté sur arXiv. Bien qu’il ne soit pas facile à lire, il mérite d’être consulté si vous êtes intéressé par les aspects techniques des projets d’IA d’Apple.

Partager un commentaire