Selon une étude coécrite par Apple, l’intelligence artificielle a encore des progrès à faire concernant son accent en anglais. En effet, comme l’indiquent de nombreux locuteurs non natifs, les modèles de langage ont tendance à mieux performer en anglais qu’en d’autres langues.

Les différences peuvent parfois être subtiles, mais elles peuvent également s’avérer problématiques. Une étude de Carnegie Mellon a démontré que les entrées non anglaises pouvaient plus facilement contourner les filtres de sécurité. Pour remédier à cela, Apple a collaboré avec des chercheurs d’Inria Paris, de l’École Polytechnique et de l’Université de Sapienza à Rome pour proposer une nouvelle méthode afin de réduire cet écart.

Un biais linguistique marqué

Apple explique que les modèles de langage actuels sont principalement conçus autour de l’anglais. Même ceux qui sont multilingues présentent souvent des biais centrés sur l’anglais. Lorsque ces modèles génèrent du texte en chinois ou en français, ils le font encore selon des schémas grammaticaux et des choix lexicaux typiques de l’anglais.

Nouveaux critères d’évaluation

Pour évaluer et corriger ces biais, les chercheurs ont introduit deux nouvelles métriques :

  • Naturel lexicale : Le modèle utilise-t-il un vocabulaire similaire à celui d’un locuteur natif ?
  • Naturel syntaxique : Le modèle structure-t-il les phrases d’une manière conforme à la grammaire native ?

Les résultats de cette étude ont confirmé les biais existants, même le modèle développé en Chine, Qwen, a affiché des performances en deçà des attentes, quelles que soient les langues observées. Parmi les modèles analysés, Llama 3.1 de Meta s’est révélé le plus naturel, mais restait bien loin des niveaux humains.

La solution proposée par Apple

Pour combler cet écart, Apple a mis au point un modèle qui privilégie les résultats naturels, en utilisant une méthode astucieuse. Plutôt que de collecter manuellement des exemples de sorties peu naturelles, l’équipe a généré des exemples via la rétro-traduction.

En traduisant une réponse fluide écrite en chinois vers l’anglais, puis en la traduisant de nouveau en chinois, des motifs peu naturels, connus sous le nom de « translationese », apparaissent. Ces sorties manipulées sont alors utilisées comme exemples négatifs, tandis que les réponses originales servent de références de qualité.

En entraînant le modèle à privilégier la version la plus naturelle, Apple a réussi à améliorer significativement le choix lexical et la grammaire, sans que cela n’affecte la performance générale sur des benchmarks standards.

Partager un commentaire