
Apple a récemment publié trois études fascinantes qui offrent un aperçu de la façon dont le développement basé sur l’IA pourrait améliorer les flux de travail, la qualité et la productivité.
Prédiction des défauts logiciels avec le modèle Autoencoder Transformer
Dans cette étude, les chercheurs d’Apple présentent un nouveau modèle d’IA qui surmonte les limitations des LLM actuels, comme les « hallucinations » et la génération sans contexte, lors de l’analyse de bases de code à grande échelle pour détecter et prédire les bugs. Ce modèle, nommé ADE-QVAET, améliore la précision de la prédiction des bogues en combinant quatre techniques d’IA : l’évolution différentielle adaptative (ADE), l’autoencodeur variationnel quantique (QVAE), une couche Transformer et la réduction et l’augmentation de bruit adaptatives (ANRA).
De manière concise, ADE ajuste la manière dont le modèle apprend, tandis que QVAE l’aide à comprendre les modèles plus profonds dans les données. La couche Transformer garantit que le modèle suit comment ces modèles sont liés les uns aux autres, et ANRA nettoie et équilibre les données pour maintenir des résultats cohérents.
Ce modèle ne traite pas le code directement ; il examine plutôt des métriques et des données sur le code, telles que la complexité, la taille et la structure, à la recherche de schémas pouvant indiquer des zones à risque pour des bugs. Les résultats mesurés sur un ensemble de données Kaggle dédié à la prédiction des bugs logiciels ont été remarquables.
Agentic RAG pour les tests logiciels
Cette étude, réalisée par quatre chercheurs d’Apple, s’attaque à une autre tâche chronophage pour les ingénieurs qualité : la création et la maintenance de plans et de cas de test détaillés pour de grandes projets logiciels. Ils ont développé un système qui utilise des LLM et des agents d’IA autonomes pour générer et gérer automatiquement les artefacts de test, allant des plans de test aux rapports de validation, tout en maintenant une traçabilité complète entre les exigences et les résultats.
Le système a permis d’améliorer la précision des tests, réduisant les délais de test de 85 % et améliorant l’efficacité des suites de test, tout en générant des économies de coûts significatives. Toutefois, les chercheurs notent que leur travail se limite à certains environnements, ce qui pourrait réduire sa généralisabilité.
Formation d’agents et vérificateurs de génie logiciel avec SWE-Gym
C’est sans doute l’une des études les plus ambitieuses. Le but de SWE-Gym est de former des agents d’IA capables de corriger les bugs en apprenant à lire, modifier et vérifier du code réel. Ce système a été construit à partir de 2 438 tâches Python réelles issues de 11 dépôts open-source, chaque tâche disposant d’un environnement exécutable et d’une suite de test.
Les résultats sont impressionnants : les agents formés avec SWE-Gym ont résolu correctement 72,5 % des tâches, surpassant les précédents benchmarks. De plus, la version allégée de SWE-Gym a permis de réduire le temps de formation de moitié, tout en maintenant des résultats similaires. Cependant, son efficacité est moindre sur des problèmes plus complexes.








