
Des chercheurs d’Apple ont mené un test A/B pour mesurer l’impact des étiquettes de pertinence générées par l’intelligence artificielle sur les classements de recherche de l’App Store et les téléchargements d’applications. Voici leurs conclusions.
Des étiquettes de pertinence générées par l’IA améliorent légèrement les conversions de recherche sur l’App Store
Dans une nouvelle étude intitulée Scaling Search Relevance: Augmenting App Store Ranking with LLM-Generated Judgments, un groupe de chercheurs d’Apple a exploré la possibilité d’utiliser des modèles de langage de grande taille (LLM) pour améliorer les résultats de recherche de l’App Store en générant les étiquettes de pertinence utilisées pour entraîner le système de classement.
Comme l’explique l’étude, la pertinence est primordiale pour aider les utilisateurs à trouver les applications qu’ils recherchent. Les chercheurs se sont concentrés sur deux signaux principaux :
- Pertinence comportementale, qui reflète la manière dont les utilisateurs interagissent avec les résultats, par exemple s’ils cliquent sur une app ou la téléchargent.
- Pertinence textuelle, qui mesure la correspondance sémantique entre les métadonnées d’une app (comme son nom, sa description et ses mots-clés) et la requête de recherche d’un utilisateur.
Dans leur étude, les chercheurs notent qu’il existe de nombreuses données concernant la pertinence comportementale, facilement mesurable, tandis que la pertinence textuelle est plus rare :
Alors que les étiquettes de pertinence comportementale sont abondantes, les étiquettes textuelles générées par des juges humains sont beaucoup plus rares. Cela crée un problème fondamental : les étiquettes de pertinence textuelles de haute qualité sont rares et coûteuses à produire, ce qui crée un goulet d’étranglement en matière d’évolutivité et laisse l’objectif de pertinence textuelle sous-exploité dans l’entraînement multi-objectifs.
Pour s’attaquer à ce problème, les chercheurs ont affiné un modèle LLM de 3 milliards de paramètres sur des jugements humains existants afin qu’il puisse apprendre à attribuer des étiquettes de pertinence aux applications en fonction de la requête de recherche d’un utilisateur et des métadonnées de l’application.
Ensuite, ils ont généré des millions de nouvelles étiquettes de pertinence avec ce modèle et ont réentraîné le système de classement de l’App Store en utilisant à la fois les données originales et les étiquettes générées par le LLM.
Une fois cette étape terminée, ils ont effectué une évaluation hors ligne, suivie d’un test A/B mondial sur le trafic live de l’App Store :
« Le modèle augmenté avec LLM a démontré une augmentation significative de +0,24 % de notre métrique principale, le taux de conversion, défini comme la proportion de sessions de recherche avec au moins un téléchargement d’application. Bien que ce chiffre puisse sembler petit, il est considéré comme une amélioration significative pour un classificateur industriel mature. Ce gain a été observé dans 89 % des vitrines. »
En d’autres termes, les utilisateurs ayant vu les résultats de recherche classés selon le modèle augmenté par LLM ont téléchargé au moins une application 0,24 % plus souvent que ceux qui ont vu les résultats présentés par le modèle de classement traditionnel.
Bien que cette augmentation de 0,24 % soit minime, elle prend une ampleur considérable compte tenu qu’on estime à environ 38 milliards le nombre total de téléchargements d’applications en 2025. Cela pourrait se traduire par des dizaines de millions de téléchargements supplémentaires issus des recherches sur l’App Store, ce que les développeurs apprécieront certainement.








