Apple a ajouté un autre élément à son offre d’IA avec la création d’un outil qui exploite les grands modèles de langage (LLM) pour animer des images statiques basées sur les instructions textuelles de l’utilisateur.
Apple décrit cela dans un nouveau document de recherche intitulé « Keyframer : Empowering Animation Design Using Large Language Models ».
« Bien que les interfaces d’invite ponctuelles soient courantes dans les systèmes commerciaux de conversion texte-image tels que Dall·E et Midjourney, nous pensons que les animations nécessitent un ensemble plus complexe de considérations utilisateur, telles que le timing et la coordination, qui sont difficiles à spécifier complètement dans une seule invite : par conséquent, des approches alternatives permettant aux utilisateurs de créer et d’affiner de manière itérative les conceptions générées peuvent être nécessaires, en particulier pour les animations.
Nous avons combiné les principes de conception émergents pour le guidage basé sur le langage des artefacts de conception avec les capacités de génération de code des LLM pour créer un nouvel outil d’animation basé sur l’IA appelé Keyframer. Avec Keyframer, les utilisateurs peuvent créer des illustrations animées à partir d’images 2D statiques à l’aide du guidage en langage naturel. À l’aide de GPT-4 3, Keyframer génère du code d’animation CSS pour animer un graphique vectoriel évolutif (SVG) d’entrée. »
Pour créer une animation, l’utilisateur télécharge une image SVG – comme celle d’une fusée spatiale – puis tape un message du type « générer trois dessins dans lesquels le ciel se fond dans différentes couleurs et les étoiles scintillent ». Keyframer génère ensuite le code CSS pour l’animation, et l’utilisateur peut ensuite l’affiner en modifiant directement le code ou en saisissant des instructions textuelles supplémentaires.
« Keyframer permet aux utilisateurs d’affiner leurs conceptions de manière itérative grâce à des suggestions séquentielles, plutôt que d’avoir à considérer l’ensemble du projet dès le départ », expliquent les auteurs. « Grâce à ce travail, nous espérons inspirer les futurs outils de conception d’animation qui combinent les puissantes capacités génératives des LLM. pour accélérer le prototypage de conception avec des éditeurs dynamiques qui permettent aux créateurs de garder le contrôle créatif. »
Selon l’article, la recherche était basée sur des entretiens avec des concepteurs et ingénieurs d’animation professionnels.
Ce n’est que la dernière d’une série de technologies d’intelligence artificielle développées par Apple. La semaine dernière, des chercheurs d’Apple ont publié un modèle d’IA qui exploite la puissance des LLM multimodaux pour effectuer des modifications au niveau des pixels sur les images.
Des innovations et fonctions importantes sur l’IA devraient ensuite être intégrées sur iPhone et iPad grâce à iOS 18, qui sera présenté en avant-première en juin.