
Le week-end dernier, Mark Gurman et Drake Bennett de Bloomberg ont publié une analyse approfondie des erreurs commises par Apple en matière d’intelligence artificielle.
Ce rapport met en lumière des décennies de négligences et une mauvaise compréhension du potentiel de l’IA au niveau le plus élevé de l’entreprise. Plus important encore, il détaille les efforts actuels d’Apple pour rattraper son retard, notamment à travers un investissement dans les données synthétiques.
La dépendance aux données synthétiques
Comme le soulignent Gurman et Bennett :
« Cela a conduit les chercheurs d’Apple à dépendre de manière plus importante des ensembles de données qu’ils licencient auprès de tiers et de ce que l’on appelle les données synthétiques — des données artificielles créées expressément pour entraîner l’IA. »
Grâce à une mise à jour récente, les iPhones participent également à l’amélioration des données synthétiques d’Apple. Les données factices sont évaluées et améliorées en les comparant avec le langage des courriers électroniques des utilisateurs sur leurs téléphones, fournissant ainsi des points de référence réels pour la formation de l’IA, sans divulguer d’informations sur les utilisateurs.
Les données synthétiques ne sont pas une nouveauté
Cette méthode pourrait sembler étrange, mais Apple n’est pas la première entreprise à recourir à des données générées par ordinateur pour former ses modèles d’IA. Des entreprises comme OpenAI, Microsoft et Meta ont toutes formé avec succès des modèles en se basant sur cette technique. Toutefois, le rapport de Bloomberg a mis cette approche sous les projecteurs pour les passionnés d’Apple.
En résumé, les données synthétiques permettent aux ingénieurs de créer des ensembles de données énormes, parfaitement étiquetés et sûrs en matière de confidentialité. Cela leur permet de couvrir des cas particuliers qui apparaissent rarement dans le monde réel et d’itérer beaucoup plus rapidement que s’ils attendaient que des échantillons réels arrivent.
Un exemple de l’utilisation de données synthétiques
Dans un article détaillant l’utilisation de données synthétiques pour réduire les hallucinations lors du processus de formation de GPT-4 en mars 2023, OpenAI a expliqué :
« Pour les hallucinations en domaine fermé, nous utilisons GPT-4 lui-même pour générer des données synthétiques. »
Microsoft, quant à elle, a formé son modèle Phi-4 en décembre 2024 avec 55 % de données synthétiques, performance qui a surpassé des modèles plus vastes sur des tâches de mathématiques et de raisonnement.
Qu’est-ce que les données synthétiques ?
Les données synthétiques sont une information générée par un algorithme ou même manuellement, plutôt que collectée à partir de données réelles. En raison de leur création en interne, les ingénieurs d’Apple peuvent garantir une précision étiquetée parfaite, ajuster pour des scénarios rares et éviter d’inclure des informations personnellement identifiables ou du matériel protégé par des droits d’auteur dans l’ensemble de données.
Un retard qui pourrait bénéficier à Apple
La tendance actuelle de se tourner vers les données synthétiques est révélatrice d’une réalité simple : de nombreuses entreprises d’IA ont déjà épuisé toutes les données disponibles dans le monde et ont besoin de plus pour progresser. Dans le cas d’Apple, ce retard pourrait s’avérer être un avantage. L’entreprise a longtemps été fidèle à des convictions de confidentialité, ce qui lui a permis de rester à l’écart des pratiques moins éthiques dans la collecte de données.
Les préoccupations entourant l’utilisation des données synthétiques
Cela étant dit, l’utilisation de données synthétiques n’est pas exempte de défis. Si elle est souvent considérée comme une option plus éthique, la collecte de données propres, humaines et soigneusement émises reste coûteuse et lente. De plus, même en recourant à un LLM pour générer des données synthétiques, des biais peuvent se glisser, malgré tous les efforts pour les éviter.








