Une étude récente menée par des chercheurs du MIT et d’Empirical Health a utilisé 3 millions de jours de données provenant d’Apple Watch pour développer un modèle prédictif des conditions médicales avec une précision impressionnante. Voici les détails.

Un peu de contexte

Alors que Yann LeCun était encore le scientifique en chef de l’IA chez Meta, il a proposé l’architecture Joint-Embedding Predictive Architecture, ou JEPA, qui apprend essentiellement à une IA à inférer le sens des données manquantes plutôt que les données elles-mêmes.

Concrètement, lorsque le modèle est confronté à des lacunes dans les données, il apprend à prédire ce que représentent les parties manquantes, plutôt que d’essayer de deviner et de reconstruire leurs valeurs précises.

Dans le cadre d’une image, par exemple, où certaines portions sont masquées et d’autres visibles, JEPA intégrerait à la fois les régions visibles et masquées dans un espace commun (d’où le terme Joint-Embedding) et ferait en sorte que le modèle infère la représentation de la région masquée à partir du contexte visible, plutôt que de se focaliser sur son contenu exact.

Retour à l’étude

Le document, intitulé JETS: A Self-Supervised Joint Embedding Time Series Foundation Model for Behavioral Data in Healthcare, a été récemment accepté à un atelier de la NeurIPS. Cette étude adapte l’approche de joint-embedding de JEPA aux séries temporelles multivariées irrégulières, telles que les données porteuses à long terme où la fréquence des mesures de fréquence cardiaque, sommeil, activité et autres varie au fil du temps.

Les chercheurs ont utilisé un ensemble de données longitudinales comprenant des données de dispositifs portables collectées auprès d’un groupe de 16 522 individus, totalisant environ 3 millions de jours-personnes. Pour chaque individu, 63 métriques distinctes de séries temporelles ont été enregistrées avec une résolution quotidienne ou inférieure, regroupées en cinq domaines physiologiques et comportementaux : santé cardiovasculaire, santé respiratoire, sommeil, activité physique et statistiques générales.

Il convient de noter que seulement 15% des participants disposaient de données médicales étiquetées pour évaluation, ce qui signifie que 85% des données auraient été inutilisables selon des approches d’apprentissage supervisé traditionnelles. Au lieu de cela, JETS a d’abord appris à partir de l’ensemble de données complet grâce à un pré-entraînement auto-supervisé, puis a été affiné sur le sous-ensemble étiqueté.

Fonctionnement du modèle

Pour mettre tout cela en œuvre, ils ont formé des triplets de données à partir des observations correspondant à chaque jour, valeur et type de métrique. Cela leur a permis de convertir chaque observation en un jeton, qui a ensuite subi un processus de masquage, a été encodé, puis soumis à un prédicteur pour prédire l’encodage des parties manquantes.

Après cette étape, les chercheurs ont confronté JETS à d’autres modèles de référence, y compris une version antérieure de JETS basée sur l’architecture Transformer, et les ont évalués à l’aide de l’AUROC et de l’AUPRC, deux mesures standard de la capacité d’une IA à discriminer entre les cas positifs et négatifs.

Le modèle JETS a obtenu un AUROC de 86,8% pour l’hypertension artérielle, 70,5% pour flutter auriculaire, 81% pour le syndrome de fatigue chronique, 86,8% pour le syndrome du nœud sinusal, entre autres. Même s’il n’a pas toujours remporté la victoire, les avantages sont manifestes, comme on peut le voir ci-dessous :

Conclusion

Cette étude présente une approche intéressante pour maximiser l’utilité et le potentiel de données cruciales qui pourraient autrement être considérées comme incomplètes ou irrégulières. Dans certains cas, les métriques de santé n’ont été enregistrées que 0,4% du temps, alors que d’autres apparaissaient dans 99% des relevés quotidiens. L’étude souligne également le potentiel prometteur de modèles et techniques d’apprentissage novateurs pour exploiter les données déjà collectées par les dispositifs de santé connectés tels qu’Apple Watch, même lorsqu’ils ne sont pas portés en continu.

Partager un commentaire