Le travail de Google DeepMind sur AlphaFold a été considéré comme une véritable prouesse, bien que coûteuse en ressources informatiques. En réponse, les chercheurs d’Apple ont mis au point une méthode alternative utilisant l’IA pour prédire la structure tridimensionnelle des protéines, et les résultats sont prometteurs.

Pour ceux qui ne connaissent pas AlphaFold, ce modèle révolutionnaire de Google DeepMind permet de prédire la structure 3D d’une protéine à partir de sa séquence en acides aminés. Cette avancée a été particulièrement précieuse pour développer des médicaments plus efficaces ainsi que de nouveaux matériaux.

Un défi surmonté

Jusqu’à récemment, prédire la structure atomique d’une seule protéine pouvait prendre des mois, voire des années. Cependant, grâce à AlphaFold et maintenant AlphaFold2, ainsi qu’à d’autres modèles de pointe tels que RoseTTAFold et ESMFold, ce processus peut désormais prendre quelques heures, voire quelques minutes, selon le matériel utilisé.

Ces modèles possèdent leurs propres méthodes et cadres pour atteindre une telle précision, mais ils nécessitent généralement des calculs très coûteux et suivent des structures rigides.

Présentation de SimpleFold

Dans leur modèle proposé, Apple ne s’appuie pas sur des modules géométriques complexes tels que les alignements de séquences multiples (MSA), les cartes d’interaction par paires ou les mises à jour triangulaires. Au lieu de cela, ils utilisent des modèles de correspondance de flux, introduits en 2023, qui ont connu un grand succès dans les applications de transformation de texte en image et de texte en modèle 3D.

En résumé, les modèles de correspondance de flux sont une évolution des modèles de diffusion, qui apprennent un chemin plus fluide transformant le bruit aléatoire en une image finie en une seule fois.

Les chercheurs d’Apple ont formé SimpleFold avec différentes tailles de modèles, allant de 100M à 3B de paramètres, et ont évalué ses performances sur deux benchmarks de prédiction de structures protéiques largement adoptés : CAMEO22 et CASP14.

Des résultats prometteurs

Les résultats étaient très encourageants : Malgré sa simplicité, SimpleFold atteint des performances compétitives par rapport à ces bases de référence. Dans les deux benchmarks, SimpleFold montre des performances systématiquement meilleures que ESMFlow, un autre modèle basé sur la correspondance de flux. Sur CAMEO22, SimpleFold démontre des résultats comparables aux meilleurs modèles de pliage (ESMFold, RoseTTAFold2 et AlphaFold2).

SimpleFold a atteint plus de 95 % des performances de RoseTTAFold2/AlphaFold2 sur la plupart des métriques sans utiliser d’attention triangulaire coûteuse et heuristique ni l’MSA.

Perspectives d’avenir

SimpleFold représente une première étape, et les chercheurs espèrent qu’il servira d’initiative pour la communauté afin de développer des modèles génératifs de protéines efficaces et puissants.

Vous pouvez lire l’étude complète sur arXiv.

Partager un commentaire