Des chercheurs d’Apple ont mis au point une version adaptée du modèle SlowFast-LLaVA capable de surpasser des modèles plus volumineux dans l’analyse et la compréhension des vidéos longues. Voici ce que cela signifie.

Les aspects techniques

En résumé, lorsqu’un modèle de langage est entraîné pour comprendre les vidéos, il apprend à diviser les vidéos en images, à appliquer la vision par ordinateur pour extraire les caractéristiques visuelles, à analyser comment ces caractéristiques évoluent dans le temps et à les aligner avec le langage afin de pouvoir décrire ou raisonner sur la vidéo sous forme de texte.

Une méthode peu efficace consiste à analyser chaque image d’une vidéo, ce qui génère une quantité écrasante d’informations dupliquées, puisque la plupart des images présentent rarement des changements significatifs d’une à l’autre. Avec cette surcharge d’informations, il devient facile de dépasser la fenêtre de contexte du modèle de langage, qui est la quantité maximale d’informations qu’il peut retenir en une seule fois. Une fois cette limite atteinte, le modèle doit ignorer les anciennes informations pour faire place aux nouvelles.

Bien sûr, il existe des méthodes plus efficaces pour entraîner des modèles de langage vidéo, mais c’est l’idée générale à garder à l’esprit pour l’étude d’Apple.

L’étude d’Apple

Comme l’expliquent les chercheurs d’Apple dans leur publication intitulée SlowFast-LLaVA-1.5 : Une famille de modèles de langage vidéo token-efficaces pour la compréhension des vidéos longues,

« Les modèles de langage vidéo intègrent la perception vidéo dans des modèles de langage pré-entraînés pour traiter des vidéos et générer des réponses aux commandes des utilisateurs. Bien que des progrès significatifs aient été réalisés, des limites notables subsistent dans les modèles vidéo existants. »

Les limitations, selon eux, se résument en trois points :

  • Les modèles existants dépendent souvent d’une longue fenêtre de contexte et d’un grand nombre d’images, ce qui est inefficace et difficilement transferrable à des modèles plus petits ;
  • Ils requièrent la plupart du temps des pipelines de formation complexes, souvent basés sur des ensembles de données privés, ce qui rend leur reproduction difficile ;
  • Nombre d’entre eux sont optimisés uniquement pour des tâches vidéo, ce qui limite leur utilité en tant que modèles polyvalents capables de comprendre également les images.

Pour remédier à ces limitations, Apple a d’abord examiné SlowFast-LLaVA, un modèle open-source ayant déjà montré des résultats prometteurs en combinant des indices spatiaux et temporels à l’aide d’une configuration à deux flux : un flux lent qui observe moins d’images en haute définition pour saisir ce qui se trouve dans la scène, et un flux rapide qui examine plus d’images en basse définition pour suivre les mouvements au fil du temps.

Apple a d’abord affiné SlowFast-LLaVA sur des images pour construire des capacités générales de raisonnement visuel. Ensuite, il a été entraîné simultanément sur des images et des vidéos (provenant d’ensembles de données publics) afin d’apprendre la structure temporelle sans sacrifier la compréhension des images.

Un modèle de pointe

Le résultat est SlowFast-LLaVA-1.5 (ou SF-LLaVA-1.5), une famille de modèles aux échelles de 1B, 3B et 7B de paramètres, qui parvient à surpasser des modèles beaucoup plus grands sur une série de tâches vidéo, parfois de manière significative, comme l’ont noté les chercheurs. En effet, sur des benchmarks de vidéos longues comme LongVideoBench et MLVU, le modèle d’Apple atteint de nouvelles performances de pointe dans toutes les tailles de modèle, y compris sa version la plus petite, 1B.

De plus, le modèle dépasse l’une des trois lacunes notées par les chercheurs, en performants également bien sur des tâches liées aux images, incluant des benchmarks pour la connaissance, le raisonnement mathématique, l’OCR et des scénarios riches en texte.

Les limites demeurent

Avec SF-LLaVA-1.5, les chercheurs d’Apple ont décidé que le modèle aurait une longueur maximale d’entrée de 128 images. Cela signifie que, qu’il analyse un clip d’une durée de quelques minutes ou de plusieurs heures, il se limite toujours à 128 images, avec 96 images sélectionnées pour le flux rapide et 32 pour le flux lent.

Les chercheurs notent donc que cette approche peut manquer certaines images clés dans les vidéos longues et induire en erreur le modèle sur la vitesse de lecture d’une vidéo. Toutefois, ils avouent que les performances de SF-LLaVA-1.5 peuvent être encore améliorées en optimisant tous les paramètres, y compris l’encodeur visuel, mais que cela s’avère complexe pour les LLMs vidéo longs en raison du coût élevé en mémoire GPU pour la sauvegarde des valeurs d’activation. De futures études pourraient explorer l’intégration de techniques d’économie de mémoire.

Malgré cela, l’approche d’Apple a abouti à un modèle de pointe, formé exclusivement sur des ensembles de données publics. SF-LLaVA-1.5 est désormais un modèle open-source disponible sur GitHub et Hugging Face, tandis que l’étude complète peut être consultée sur arXiv.

Voici quelques exemples du modèle en action :

Partager un commentaire