Apple a publié un nouvel article sur son journal Machine Learning dédié aux développeurs où l’entreprise apporte quelques détails sur la fonctionnalité « Hey Siri » d’iOS.

Ce nouvel article se concentre sur le processus de personnalisation avec lequel les utilisateurs peuvent gérer la fonctionnalité « Hey Siri » sur les appareils iOS. Dans tous les produits Apple compatibles, la commande vocale « Hey Siri » permet d’invoquer l’assistant AI de l’entreprise et peut être suivi par des questions comme « Quel est la météo d’aujourd’hui ? » ou autres.

La commande « Hey Siri » est arrivée avec iOS 8 sur l’iPhone 6, et au début on ne pouvait l’utiliser seulement si l’iPhone était en charge. Par la suite, Apple l’a fait évolué, avec le soutien d’un processeur économe en énergie, permettant son invocation à tout moment sans même que l’appareil soit branché au secteur.

L’équipe Siri d’Apple explique ensuite le processus technique qui a permis de mieux gérer cette fonction. Elle a créé des réseaux de neurones profonds et a « préparé le terrain pour des améliorations » dans les futures itérations de Siri, toutes motivées par l’objectif de créer une « plus grande personnalisation de l’appareil » pour les utilisateurs.

Les développeurs d’Apple déclarent que l’expression « Hey Siri » a été choisie en raison de son phrasé « naturel » et décrit trois scénarios dans lesquels les activations involontaires s’avèrent problématiques pour une telle fonctionnalité : « lorsque les utilisateurs propriétaires prononcent une phrase similaire », « quand les autres utilisateurs disent Hey Siri » et « quand d’autres utilisateurs disent une phrase similaire. » Selon l’équipe, le dernier scénario est « la fausse activation la plus ennuyante de tous. »

Pour réduire ces activations accidentelles de Siri, Apple exploite des technologies liées au domaine de la reconnaissance vocale. Il est important de souligner que l’équipe Siri dit que tout est axé sur « qui parle » et moins sur « ce qui a été dit ».

L’objectif général de la reconnaissance du locuteur (SR) est de déterminer l’identité d’une personne à l’aide de sa voix. Nous nous intéressons à « qui parle », contrairement au problème de la reconnaissance de la parole, qui vise à déterminer « ce qui a été dit ». La reconnaissance de l’utilisateur est effectuée en utilisant une phrase connue au-préalable, telle que « Hey Siri ».

Apple explique également que cette reconnaissance de la voix est à la fois active et passive. La partie active est la partie initiale, quand les utilisateurs disent Hey Siri les premières fois, tandis que la seconde fonctionne en arrière-plan et est créée au fil du temps. Cette dernière s’améliore ensuite avec le temps tout en tenant compte des situations du monde réel.

Les prochains défis de l’équipe Apple dans ce domaine seront d’améliorer la reconnaissance dans les grandes salles avec réverbération et dans les endroits bondés.

Partager un commentaire