VASA-1 : Microsoft ne commercialisera pas son nouveau modèle d'IA

Microsoft, principal investisseur d’OpenAI (ChatGPT), l’un des nombreux acteurs de l’intelligence artificielle, pousse sans relâche les frontières de l’innovation. Récemment, la société a fait sensation en dévoilant une un modèle d’IA capable de générer des personnages virtuels doués de parole à partir d’une simple photographie et d’une piste audio.

Une IA qui fait parler des photos et les transforme en vidéos

Des chercheurs de Microsoft ont franchi une étape majeure dans le domaine de l’intelligence artificielle (IA) avec le développement d’une technologie novatrice capable de transformer une simple photo de visage et un échantillon vocal en une vidéo hyper-réaliste d’un visage en train de parler. Cette avancée, baptisée VASA-1, a été dévoilée récemment dans un document publié par le géant informatique.

VASA-1 fonctionne en prenant une simple photo de portrait et un fichier audio, qu’elle transforme ensuite en une vidéo où le visage prend vie de manière extrêmement réaliste. Les exemples publiés par Microsoft démontrent une synchronisation parfaite des mouvements des lèvres, des traits du visage convaincants et des expressions impressionnantes. Cependant, certains aspects, tels que les mouvements de tête parfois saccadés et certaines expressions émotionnelles moins abouties, révèlent encore le caractère artificiel de la technologie.

Les résultats époustouflants de VASA-1

L’objectif premier de cette technologie est d’explorer des applications positives, comme l’amélioration de l’équité en matière d’éducation, l’accessibilité pour les personnes ayant des difficultés de communication, ou encore le soutien thérapeutique.

D’un point de vue technique, les vidéos générées ont une résolution de 512×512, une fréquence de 45 images par seconde, et leur durée n’excède pas 1 minute. Le modèle est aussi capable de traiter des « photos artistiques et des pistes audio qui ne faisaient pas partie de ses données d’entraînement », indique Microsoft. Ce qui a notamment permis à l’équipe de chercheurs de produire une vidéo à la fois comique et angoissante, où la Joconde reprend une version parodique de Paparazzi, interprétée par l’actrice Anne Hathaway.

Microsoft just dropped VASA-1.

This AI can make single image sing and talk from audio reference expressively. Similar to EMO from Alibaba

10 wild examples:

1. Mona Lisa rapping Paparazzi pic.twitter.com/LSGF3mMVnD
— Min Choi (@minchoi) April 18, 2024

Pour des raisons éthiques, VASA-1 reste un projet interne à Microsoft

Les chercheurs demeurent conscients des risques potentiels associés à cette technologie. Ils soulignent qu’elle n’est pas destinée à être utilisée pour tromper ou induire en erreur, mais reconnaissent qu’elle pourrait être détournée à de telles fins. Par conséquent, Microsoft prend des mesures pour s’assurer que VASA-1 ne sera pas mis à disposition tant que des garanties adéquates ne seront pas en place pour prévenir les abus.

« Nos recherches se concentrent sur des avatars virtuels, en vue d’applications positives. Nous sommes opposés à tout comportement visant à créer des contenus trompeurs ou dommageables de personnes réelles. »
Porte-parole de Microsoft

Une démonstration de VASA-1 diffusée à la télévision

Dans une récente démonstration diffusée à la télévision, Microsoft a présenté le potentiel révolutionnaire de son dernier développement en matière d’intelligence artificielle : VASA-1. Cette démonstration repousse les frontières de l’animation numérique en transformant des images statiques en vidéos dynamiques et ultra-réalistes.

À propos de l'auteur

Adrien Piron

Je vous aide à dépanner votre ordinateur par vous-même, à découvrir de nouvelles astuces et à en tirer tout le potentiel, pour que la technologie soit un atout et non un obstacle.

VASA-1 : Microsoft ne commercialisera pas son nouveau modèle d’IA

Une IA qui fait parler des photos et les transforme en vidéos

Les résultats époustouflants de VASA-1

Pour des raisons éthiques, VASA-1 reste un projet interne à Microsoft

Une démonstration de VASA-1 diffusée à la télévision

À propos de l'auteur

Adrien Piron

Dcouvrez les articles à la une de la même thématique

Le navigateur IA Comet de Perplexity est désormais gratuit pour tout le monde

ChatGPT Go : OpenAI lance une nouvelle formule tarifaire

Des chercheurs révèlent comment jailbreaker GPT-5 et contourner ses garde-fous

ChatGPT : Comment activer et utiliser les anciens modèles ChatGPT-4 ?

GPT-5 en panne pour certains utilisateurs après son lancement

Microsoft offre désormais un accès gratuit a GPT-5 d’OpenAI avec Copilot sur Windows 11

GPT-OSS 120B : OpenAI revient à l’open source avec un MoE de 120 milliards de paramètres

L’agent ChatGPT surpasse les CAPTCHA et coche « Je ne suis pas un robot »

La sortie de GPT-5 est imminente selon Sam Altman, le PDG d’OpenAI

Replit IA efface une base de données en production et invente 4000 faux utilisateurs

VASA-1 : Microsoft ne commercialisera pas son nouveau modèle d’IA

Une IA qui fait parler des photos et les transforme en vidéos

Les résultats époustouflants de VASA-1

Pour des raisons éthiques, VASA-1 reste un projet interne à Microsoft

Une démonstration de VASA-1 diffusée à la télévision

Vous avez trouvé cet article utile ?

À propos de l'auteur

Adrien Piron

Dcouvrez les articles à la une de la même thématique

Le navigateur IA Comet de Perplexity est désormais gratuit pour tout le monde

ChatGPT Go : OpenAI lance une nouvelle formule tarifaire

Des chercheurs révèlent comment jailbreaker GPT-5 et contourner ses garde-fous

ChatGPT : Comment activer et utiliser les anciens modèles ChatGPT-4 ?

GPT-5 en panne pour certains utilisateurs après son lancement

Microsoft offre désormais un accès gratuit a GPT-5 d’OpenAI avec Copilot sur Windows 11

GPT-OSS 120B : OpenAI revient à l’open source avec un MoE de 120 milliards de paramètres

L’agent ChatGPT surpasse les CAPTCHA et coche « Je ne suis pas un robot »

La sortie de GPT-5 est imminente selon Sam Altman, le PDG d’OpenAI

Replit IA efface une base de données en production et invente 4000 faux utilisateurs

 La sortie de GPT-5 est imminente selon Sam Altman, le PDG d’OpenAI