Après avoir lancé son nouveau blog dédié au Machine Learning, l’équipe Siri partage trois nouveaux postes liés à la recherche présentée la semaine dernière à la Stockholm Interspeech 2017.

Le Machine Learning et Siri

L’un des poste, intitulé « Deep Learning for Siri’s Voice: On-device Deep Mixture Density Networks for Hybrid Unit Selection Synthesis », illustre l’évolution de la voix Siri jusqu’à iOS 11 et le processus utilisé par Apple pour la synthèse de la parole. Il y a également les enregistrements comparant les voix de Siri dans iOS 9, iOS 10 et iOS 11 pour démontrer les améliorations apportées par version après version :

« Avec iOS 11 nous avons choisi une nouvelle voix féminine et talentueuse, dans le but d’améliorer la naturalité, la personnalité et l’expressivité de Siri. Nous avons évalué des centaines de candidats avant de choisir la meilleure. Ensuite, nous avons enregistré plus de 20 heures de dialogues et nous avons construit une nouvelle TTS d’entrée en utilisant la nouvelle technologie qui repose sur l’apprentissage en profondeur. En conséquence, la nouvelle voix Siri d’Amérique sonne mieux que jamais. »

Les deux autres posts, intitulés « Improving Neural Network Acoustic Models by Cross-bandwidth and Cross-lingual Initialization » et « Inverse Text Normalization as a Labeling Problem » expliquent comment Siri utilise l’apprentissage de la machine pour afficher les éléments tels que les dates, heures et adresses, et quelles sont les techniques qu’Apple utilise pour introduire une nouvelle langue dans la façon la plus simple possible.

Apple décrit ce blog comme « un endroit où les utilisateurs peuvent lire les messages écrits par les ingénieurs d’Apple qui parlent de leur travail et les progrès réalisés pour les technologies d’apprentissage de la machine dans l’entreprise. »

Partager un commentaire