Accueil News Un nouveau modèle d’IA soutenu par Apple génère son et discours à...

nouveau modele soutenu apple genere discours partir videos silencieuses

Un nouveau modèle d’IA soutenu par Apple génère son et discours à partir de vidéos silencieuses

Par

9 février 2026

Le nouveau modèle, baptisé VSSFlow, s’appuie sur une architecture créative pour générer des sons et du discours au sein d’un même système, offrant des résultats à la pointe de la technologie. Vous pouvez découvrir quelques démonstrations ci-dessous.

Le problème

Actuellement, la plupart des modèles de conversion vidéo-son (c’est-à-dire les modèles conçus pour générer des sons à partir de vidéos silencieuses) ne parviennent pas à produire un discours de qualité suffisante. De même, les modèles de synthèse vocale n’excellent pas dans la génération de sons non-vocaux, étant spécifiquement conçus pour un autre usage.

Les tentatives antérieures de combiner ces deux tâches reposaient souvent sur l’hypothèse que l’entraînement conjoint dégradait la performance, conduisant à des configurations qui enseignaient le discours et le son en étapes distinctes, ce qui ajoutait de la complexité au processus.

Face à ce constat, trois chercheurs d’Apple, avec six chercheurs de l’Université Renmin de Chine, ont développé VSSFlow, un nouveau modèle d’IA capable de générer des effets sonores et du discours à partir de vidéos silencieuses en un seul système.

La solution

En résumé, VSSFlow exploite plusieurs concepts d’IA générative, notamment la conversion de transcriptions en séquences de phonèmes et l’apprentissage de la reconstruction de son à partir de bruit par matching de flux, cela permettant au modèle de commencer à partir de bruit aléatoire pour aboutir au signal désiré.

Tout cela est intégré dans une architecture à 10 couches qui fusionne directement les signaux vidéo et de transcription dans le processus de génération audio, permettant au modèle de gérer à la fois les effets sonores et le discours au sein d’un même système.

Fait intéressant, les chercheurs notent que l’entraînement conjoint sur le discours et le son a en réalité amélioré les performances sur les deux tâches, au lieu de les faire concourir ou de dégrader la performance globale de l’une ou l’autre tâche.

Pour entraîner VSSFlow, les chercheurs ont alimenté le modèle avec un mélange de vidéos silencieuses associées à des sons environnementaux (V2S), de vidéos de personnes parlant silencieusement accompagnées de transcriptions (VisualTTS), et de données de synthèse vocale (TTS), lui permettant d’apprendre simultanément les effets sonores et le dialogue spoken à travers un processus d’entraînement de bout en bout.

Il est important de noter que, dans un premier temps, VSSFlow n’était pas capable de générer automatiquement un son d’ambiance et un discours en même temps dans une seule sortie.

Pour atteindre cet objectif, ils ont adapté leur modèle déjà entraîné sur un ensemble important d’exemples synthétiques dans lesquels discours et sons environnementaux étaient mélangés, permettant au modèle d’apprendre à produire les deux simultanément.

Mise en œuvre de VSSFlow

Pour générer son et discours à partir d’une vidéo silencieuse, le modèle commence à partir d’un bruit aléatoire et utilise des indices visuels prélevés sur la vidéo à 10 images par seconde pour former des sons d’ambiance. Parallèlement, un transcript de ce qui est dit fournit des indications précises pour la voix générée.

Lors de tests comparatifs avec des modèles spécifiques à une tâche conçus uniquement pour des effets sonores ou uniquement pour le discours, VSSFlow a montré des résultats compétitifs pour les deux tâches, dépassant plusieurs critères clés malgré l’utilisation d’un seul système unifié.

Les chercheurs ont publié plusieurs démonstrations de résultats de son, de discours et de génération conjointe, ainsi que des comparaisons entre VSSFlow et plusieurs modèles alternatifs. Vous pouvez voir quelques-unes des réalisations ci-dessous, mais il est préférable de consulter la page de démonstration pour les découvrir toutes.

De plus, les chercheurs ont rendu le code de VSSFlow disponible en open source sur GitHub, et travaillent également à rendre disponibles les poids du modèle. Ils envisagent également de fournir une démonstration d’inférence.

Concernant les développements futurs, les chercheurs mentionnent :

Ce travail présente un modèle de flux unifié intégrant les tâches V2S et VisualTTS, établissant un nouveau paradigme pour la génération sonore et de discours conditionnée par la vidéo. Notre cadre démontre un mécanisme efficace d’agrégation des conditions pour incorporer le discours et les conditions vidéo dans l’architecture DiT. De plus, nous mettons en évidence un effet d’amélioration mutuelle de l’apprentissage conjoint du son et du discours par analyse.

Pour en savoir plus sur l’étude, intitulée VSSFlow : Unifying Video-conditioned Sound and Speech Generation via Joint Learning.

Un nouveau modèle d’IA soutenu par Apple génère son et discours à partir de vidéos silencieuses

Le problème

La solution

Mise en œuvre de VSSFlow

Partager un commentaireAnnuler la réponse.

Articles épinglés

Le Siège de Bureau Flexispot BS12 Pro : L’Alliance Parfaite entre Confort et Ergonomie

Début des précommandes des iPhone 15/Plus/Pro/Max

RED by SFR : Nouveau forfait mobile à 40Go pour 9,99€

Le problème

La solution

Mise en œuvre de VSSFlow

Partager un commentaireAnnuler la réponse.

Nos réseaux sociaux

Articles épinglés

Le site iPhonote.com utilise des cookies pour assurer une meilleure navigation