
Les chercheurs d’Apple ont publié une étude qui examine comment les modèles de langage de grande taille (LLM) peuvent analyser les données audio et de mouvement pour mieux comprendre les activités des utilisateurs.
Efficacité sans intrusivité
Ce nouvel article intitulé « Utilisation des LLM pour la fusion des capteurs multimodaux pour la reconnaissance d’activités » offre un aperçu des possibilités d’Apple d’intégrer l’analyse des LLM avec les données des capteurs traditionnels afin d’obtenir une compréhension plus précise des activités des utilisateurs. Les chercheurs soutiennent que cela pourrait accroître la précision de l’analyse d’activité, même en cas de données de capteurs insuffisantes.
Performances prometteuses
Les chercheurs notent :
« Les flux de données des capteurs fournissent des informations précieuses concernant les activités et le contexte pour des applications en aval, bien que l’intégration d’informations complémentaires puisse être difficile. Nous démontrons que les LLM peuvent être utilisés pour la fusion tardive afin de classer les activités à partir des séries temporelles de données audio et de mouvement. »
En d’autres termes, les LLM sont capables d’inférer ce qu’un utilisateur fait à partir de signaux audio et de mouvement basiques, et leur précision s’améliore encore plus quand on leur donne un seul exemple.
Une analyse approfondie
Dans l’étude, les chercheurs expliquent avoir utilisé Ego4D, un ensemble de données massif de médias capturés en vue à la première personne. Ce corpus contient des milliers d’heures de situations réelles, allant des tâches ménagères aux activités de plein air.
Les chercheurs ont extrait un sous-ensemble d’activités quotidiennes en se basant sur les descriptions narratives fournies. Ce sous-ensemble comprend des échantillons de 20 secondes issus de douze activités principales : passer l’aspirateur, cuisiner, faire la lessive, manger, jouer au basket, jouer au foot, jouer avec des animaux de compagnie, lire un livre, utiliser un ordinateur, faire la vaisselle, regarder la télévision et s’entraîner.
Résultats et implications
Apple a comparé les performances de différents modèles dans deux scénarios : un scénario avec une liste des douze activités possibles (groupe fermé) et un autre sans options données (ouvert). Les résultats montrent un intérêt particulier pour les insights qu’offre une telle combinaison de modèles, en particulier dans le domaine de l’analyse d’activité et de santé.
Les chercheurs ont mis à disposition des matériaux supplémentaires auprès de l’étude, comprenant les identifiants des segments Ego4D, des horodatages, des invites et des exemples à un tirage pour aider d’autres chercheurs à reproduire leurs résultats.








