Apple a publié un nouvel article sur son site Machine Learning Journal qui se concentre sur la détection de visage et le cadre de vision. L’article s’intitule « Réseau neuronal profond sur le dispositif pour la détection des visages » et explique en détail comment le cadre Vision est géré et quels sont les éléments qui l’empêchent de fonctionner. Apple précise que la détection des visages enregistre les données uniquement localement et non sur un serveur.

Détection des visages et de la vision

« Les modèles d’apprentissage en profondeur doivent être envoyés dans le cadre du système d’exploitation, occupant l’espace de stockage NAND. Ils doivent également être chargés dans la RAM et nécessitent un temps de calcul important par le GPU et/ou le CPU. Contrairement aux services cloud, dont les ressources ne peuvent être consacrées qu’à un seul sondage, le calcul sur l’appareil doit avoir lieu lors du partage de ces ressources avec d’autres applications en cours d’exécution. De plus, le calcul sera suffisamment efficace pour pouvoir traiter une grande photothèque en peu de temps sans avoir à dépenser trop d’énergie ou à augmenter la température de l’appareil. »

Apple explique ensuite comment ce framework a été optimisé pour tirer le meilleur parti du processeur et du GPU de l’iPhone, en exploitant également les graphismes Metal et BNNS (Basic Neural Network Subroutines). L’utilisation de la mémoire a également été optimisée pour la gestion de la détection des visages et la mise en cache des images.

Dans le post, il est confirmé que les ingénieurs d’Apple ont commencé à travailler sur l’apprentissage en profondeur sur le visage depuis iOS 10.

Partager un commentaire