Microsoft, principal investisseur d’OpenAI (ChatGPT), l’un des nombreux acteurs de l’intelligence artificielle, pousse sans relâche les frontières de l’innovation. Récemment, la société a fait sensation en dévoilant une un modèle d’IA capable de générer des personnages virtuels doués de parole à partir d’une simple photographie et d’une piste audio.
Une IA qui fait parler des photos et les transforme en vidéos
Des chercheurs de Microsoft ont franchi une étape majeure dans le domaine de l’intelligence artificielle (IA) avec le développement d’une technologie novatrice capable de transformer une simple photo de visage et un échantillon vocal en une vidéo hyper-réaliste d’un visage en train de parler. Cette avancée, baptisée VASA-1, a été dévoilée récemment dans un document publié par le géant informatique.
VASA-1 fonctionne en prenant une simple photo de portrait et un fichier audio, qu’elle transforme ensuite en une vidéo où le visage prend vie de manière extrêmement réaliste. Les exemples publiés par Microsoft démontrent une synchronisation parfaite des mouvements des lèvres, des traits du visage convaincants et des expressions impressionnantes. Cependant, certains aspects, tels que les mouvements de tête parfois saccadés et certaines expressions émotionnelles moins abouties, révèlent encore le caractère artificiel de la technologie.
Les résultats époustouflants de VASA-1
L’objectif premier de cette technologie est d’explorer des applications positives, comme l’amélioration de l’équité en matière d’éducation, l’accessibilité pour les personnes ayant des difficultés de communication, ou encore le soutien thérapeutique.
D’un point de vue technique, les vidéos générées ont une résolution de 512×512, une fréquence de 45 images par seconde, et leur durée n’excède pas 1 minute. Le modèle est aussi capable de traiter des « photos artistiques et des pistes audio qui ne faisaient pas partie de ses données d’entraînement », indique Microsoft. Ce qui a notamment permis à l’équipe de chercheurs de produire une vidéo à la fois comique et angoissante, où la Joconde reprend une version parodique de Paparazzi, interprétée par l’actrice Anne Hathaway.
Microsoft just dropped VASA-1.
— Min Choi (@minchoi) April 18, 2024
This AI can make single image sing and talk from audio reference expressively. Similar to EMO from Alibaba
10 wild examples:
1. Mona Lisa rapping Paparazzi pic.twitter.com/LSGF3mMVnD
Pour des raisons éthiques, VASA-1 reste un projet interne à Microsoft
Les chercheurs demeurent conscients des risques potentiels associés à cette technologie. Ils soulignent qu’elle n’est pas destinée à être utilisée pour tromper ou induire en erreur, mais reconnaissent qu’elle pourrait être détournée à de telles fins. Par conséquent, Microsoft prend des mesures pour s’assurer que VASA-1 ne sera pas mis à disposition tant que des garanties adéquates ne seront pas en place pour prévenir les abus.
« Nos recherches se concentrent sur des avatars virtuels, en vue d’applications positives. Nous sommes opposés à tout comportement visant à créer des contenus trompeurs ou dommageables de personnes réelles. »
Porte-parole de Microsoft
Une démonstration de VASA-1 diffusée à la télévision
Dans une récente démonstration diffusée à la télévision, Microsoft a présenté le potentiel révolutionnaire de son dernier développement en matière d’intelligence artificielle : VASA-1. Cette démonstration repousse les frontières de l’animation numérique en transformant des images statiques en vidéos dynamiques et ultra-réalistes.