Les appareils Apple présentent une transcription audio à texte impressionnante dans leurs bêtas développeurs, comme le montre un récent test.

Pour certains, transcrire de l’audio ou de la vidéo en texte est une tâche essentielle. La plupart des applications actuelles s’appuient sur le modèle Whisper d’OpenAI. Si vous utilisez des applications comme MacWhisper pour transcrire des réunions ou générer des sous-titres pour des vidéos YouTube, il y a de fortes chances que ce modèle soit à la base de votre expérience.

Les bêtas d’iOS 26 et des autres systèmes d’exploitation d’Apple intègrent désormais leurs propres frameworks de transcription. Un test révèle que ces nouveaux outils rivalisent avec la précision de Whisper tout en dépassant sa vitesse de plus de deux fois.

Des capacités de dictée améliorées

Les fonctionnalités de dictée intégrées aux appareils Apple reposent sur leur propre framework de speech. Dans les nouvelles bêtas, des versions bêta de SpeechAnalyzer et SpeechTranscriber sont disponibles, permettant aux développeurs d’intégrer ces capacités dans leurs applications.

  • Utilisez le framework Speech pour reconnaître des mots prononcés dans des enregistrements ou de l’audio en direct.
  • Le support de dictée du clavier utilise la reconnaissance vocale pour traduire le contenu audio en texte. Ce framework propose un comportement similaire, sans nécessiter la présence du clavier.
  • Vous pourriez par exemple l’utiliser pour reconnaître des commandes vocales ou gérer la dictée textuelle dans d’autres parties de votre application.

John Voorhees de MacStories a demandé à son fils de créer un outil en ligne de commande pour tester ce nouveau potentiel. Les résultats ont été étonnants.

Il explique : « J’ai demandé à Finn ce qu’il lui faudrait pour construire un outil en ligne de commande capable de transcrire des fichiers audio et vidéo avec SpeechAnalyzer et SpeechTranscriber. Il a estimé que cela prendrait environ 10 minutes, et il n’était pas loin. Au final, j’ai mis plus de temps à installer macOS Tahoe après WWDC qu’il n’en a fallu à Finn pour créer Yap, un utilitaire simple d’utilisation qui prend des fichiers audio et vidéo comme entrée et produit des transcriptions au format SRT et TXT. »

Finn a utilisé une vidéo de 34 minutes pour tester Yap contre MacWhisper et VidCap, deux applications de transcription populaires. Il a constaté que les modules d’Apple égalent la précision de ces applications, tout en étant plus de deux fois plus rapides que l’application la plus efficace, MacWhisper, utilisant le modèle Large V3 Turbo :

  • Yap (utilisant le framework d’Apple) : 0:45
  • MacWhisper (Large V3 Turbo) : 1:41
  • VidCap : 1:55
  • MacWhisper (Large V2) : 3:55

Si cela peut sembler une amélioration minime pour des tâches ponctuelles, les gains de temps deviennent significatifs lors de transcriptions en lot ou pour ceux ayant besoin de transcrire régulièrement, comme les étudiants prenant des notes de cours.

Si vous utilisez la bêta développeur de macOS Tahoe, vous pouvez installer Yap depuis GitHub pour tester cette innovation par vous-même.

Partager un commentaire