
Le nouveau modèle, baptisé VSSFlow, s’appuie sur une architecture créative pour générer des sons et du discours au sein d’un même système, offrant des résultats à la pointe de la technologie. Vous pouvez découvrir quelques démonstrations ci-dessous.
Le problème
Actuellement, la plupart des modèles de conversion vidéo-son (c’est-à-dire les modèles conçus pour générer des sons à partir de vidéos silencieuses) ne parviennent pas à produire un discours de qualité suffisante. De même, les modèles de synthèse vocale n’excellent pas dans la génération de sons non-vocaux, étant spécifiquement conçus pour un autre usage.
Les tentatives antérieures de combiner ces deux tâches reposaient souvent sur l’hypothèse que l’entraînement conjoint dégradait la performance, conduisant à des configurations qui enseignaient le discours et le son en étapes distinctes, ce qui ajoutait de la complexité au processus.
Face à ce constat, trois chercheurs d’Apple, avec six chercheurs de l’Université Renmin de Chine, ont développé VSSFlow, un nouveau modèle d’IA capable de générer des effets sonores et du discours à partir de vidéos silencieuses en un seul système.
La solution
En résumé, VSSFlow exploite plusieurs concepts d’IA générative, notamment la conversion de transcriptions en séquences de phonèmes et l’apprentissage de la reconstruction de son à partir de bruit par matching de flux, cela permettant au modèle de commencer à partir de bruit aléatoire pour aboutir au signal désiré.
Tout cela est intégré dans une architecture à 10 couches qui fusionne directement les signaux vidéo et de transcription dans le processus de génération audio, permettant au modèle de gérer à la fois les effets sonores et le discours au sein d’un même système.
Fait intéressant, les chercheurs notent que l’entraînement conjoint sur le discours et le son a en réalité amélioré les performances sur les deux tâches, au lieu de les faire concourir ou de dégrader la performance globale de l’une ou l’autre tâche.
Pour entraîner VSSFlow, les chercheurs ont alimenté le modèle avec un mélange de vidéos silencieuses associées à des sons environnementaux (V2S), de vidéos de personnes parlant silencieusement accompagnées de transcriptions (VisualTTS), et de données de synthèse vocale (TTS), lui permettant d’apprendre simultanément les effets sonores et le dialogue spoken à travers un processus d’entraînement de bout en bout.
Il est important de noter que, dans un premier temps, VSSFlow n’était pas capable de générer automatiquement un son d’ambiance et un discours en même temps dans une seule sortie.
Pour atteindre cet objectif, ils ont adapté leur modèle déjà entraîné sur un ensemble important d’exemples synthétiques dans lesquels discours et sons environnementaux étaient mélangés, permettant au modèle d’apprendre à produire les deux simultanément.
Mise en œuvre de VSSFlow
Pour générer son et discours à partir d’une vidéo silencieuse, le modèle commence à partir d’un bruit aléatoire et utilise des indices visuels prélevés sur la vidéo à 10 images par seconde pour former des sons d’ambiance. Parallèlement, un transcript de ce qui est dit fournit des indications précises pour la voix générée.
Lors de tests comparatifs avec des modèles spécifiques à une tâche conçus uniquement pour des effets sonores ou uniquement pour le discours, VSSFlow a montré des résultats compétitifs pour les deux tâches, dépassant plusieurs critères clés malgré l’utilisation d’un seul système unifié.
Les chercheurs ont publié plusieurs démonstrations de résultats de son, de discours et de génération conjointe, ainsi que des comparaisons entre VSSFlow et plusieurs modèles alternatifs. Vous pouvez voir quelques-unes des réalisations ci-dessous, mais il est préférable de consulter la page de démonstration pour les découvrir toutes.
De plus, les chercheurs ont rendu le code de VSSFlow disponible en open source sur GitHub, et travaillent également à rendre disponibles les poids du modèle. Ils envisagent également de fournir une démonstration d’inférence.
Concernant les développements futurs, les chercheurs mentionnent :
Ce travail présente un modèle de flux unifié intégrant les tâches V2S et VisualTTS, établissant un nouveau paradigme pour la génération sonore et de discours conditionnée par la vidéo. Notre cadre démontre un mécanisme efficace d’agrégation des conditions pour incorporer le discours et les conditions vidéo dans l’architecture DiT. De plus, nous mettons en évidence un effet d’amélioration mutuelle de l’apprentissage conjoint du son et du discours par analyse.
Pour en savoir plus sur l’étude, intitulée VSSFlow : Unifying Video-conditioned Sound and Speech Generation via Joint Learning.








