Dans le cadre de son impressionnant travail sur les modèles de parole et de voix, Apple a récemment publié une étude qui adopte une approche centrée sur l’humain face à un problème complexe d’apprentissage automatique : non seulement reconnaître ce qui a été dit, mais également comment cela a été exprimé. Les implications en matière d’accessibilité sont majeures.

Dans ce document, les chercheurs présentent un cadre d’analyse de la parole basé sur ce qu’ils appellent les Dimensions de Qualité Voix (VQDs), qui sont des traits interprétables tels que l’intelligibilité, la dureté, la respiration, la monotonie de la hauteur, et plus encore.

Ces attributs sont les mêmes que ceux auxquels les orthophonistes prêtent attention lorsqu’ils évaluent des voix affectées par des conditions neurologiques ou des maladies. Et désormais, Apple travaille également sur des modèles capables de les détecter.

Apprendre à l’IA à entendre et écouter

La plupart des modèles de parole actuels sont principalement formés sur des voix saines et typiques. Cela signifie qu’ils ont tendance à mal fonctionner lorsque les utilisateurs ont une voix différente, créant un écart d’accessibilité considérable.

Les chercheurs d’Apple ont formé des sondes légères (modèles de diagnostic simples qui s’ajoutent aux systèmes de parole existants) sur un large ensemble de données publiques de discours atypique annoté, y compris des voix de personnes atteintes de Parkinson, de SLA et de paralysie cérébrale.

Cependant, au lieu d’utiliser ces modèles pour transcrire les paroles, ils ont mesuré la qualité de la voix en utilisant sept dimensions clés :

  • Intelligibilité : la facilité de compréhension du discours.
  • Consonnes imprécises : la clarté des sons consonantiques (par exemple, consonnes floues ou indistinctes).
  • Voix dure : une qualité vocale rugueuse, tendue ou rauque.
  • Naturel : la fluidité et le caractère typique du discours pour un auditeur.
  • Monoloudness : absence de variation dans le volume sonore (c’est-à-dire parler à un volume constant).
  • Monopitch : absence de variation de hauteur, résultant en un ton plat ou robotique.
  • Respiration : qualité de voix audible, aérée ou chuchotante, souvent due à une fermeture incomplète des cordes vocales.

En résumé, ils ont enseigné aux machines à « écouter comme un clinicien », au lieu de simplement enregistrer ce qui est dit.

Pour cela, Apple a utilisé cinq modèles (CLAP, HuBERT, HuBERT ASR, Raw-Net3, SpICE) pour extraire les caractéristiques audio, puis a formé des sondes légères pour prédire les dimensions de qualité vocale à partir de ces caractéristiques.

Ces sondes ont obtenu de solides performances sur la plupart des dimensions, bien que les résultats aient légèrement varié en fonction du trait et de la tâche.

Au-delà de l’accessibilité

De manière intéressante, Apple ne s’est pas limité à la parole clinique. L’équipe a également testé ses modèles sur la parole émotionnelle à partir d’un ensemble de données appelé RAVDESS. Malgré le fait qu’ils n’aient jamais été formés sur des audio émotionnels, les modèles VQD ont également produit des prédictions intuitives.

Par exemple, les voix en colère étaient notées avec un niveau de « monoloudness » plus bas, les voix calmes étaient jugées moins dures, et les voix tristes apparaissaient comme plus monotones.

Cela pourrait ouvrir la voie à un Siri plus convivial, capable de moduler son ton et sa manière de parler en fonction de l’humeur ou de l’état d’esprit de l’utilisateur, au-delà de la simple interprétation des mots.

Pour plus de détails, l’étude complète est disponible sur arXiv.

Partager un commentaire