Korben
VASA-1 – Des visages parlants ultra-réalistes et en temps réel
18 avril 2024 à 01:49

VASA-1 – Des visages parlants ultra-réalistes et en temps réel

Par : Korben

18 avril 2024 à 01:49

VASA-1 est un nouveau framework qui permet de générer des visages parlants ultra-réalistes en temps réel ! En gros, vous balancez une simple photo à cette IA, ainsi qu’un petit clip audio, et bim ! Elle vous pond une vidéo d’un visage qui parle, avec une synchronisation de la bouche nickel chrome, des expressions faciales hyper naturelles et des mouvements de tête très fluides. C’est hyper bluffant !

Les chercheurs de Microsoft ont réussi ce tour de force en combinant plusieurs techniques de pointe en deep learning. Ils ont d’abord créé un espace latent expressif et bien organisé pour représenter les visages humains. Ça permet de générer de nouveaux visages variés, qui restent cohérents avec les données existantes. Ensuite, ils ont entraîné un modèle de génération de dynamiques faciales et de mouvements de tête, appelé le Diffusion Transformer, pour générer les mouvements à partir de l’audio et d’autres signaux de contrôle.

Et le résultat est juste époustouflant. On a l’impression de voir de vraies personnes qui parlent, avec toutes les nuances et les subtilités des expressions faciales. Les lèvres bougent parfaitement en rythme avec les paroles, les yeux clignent et regardent naturellement, les sourcils se lèvent et se froncent…

En plus de ça, VASA-1 peut générer des vidéos en haute résolution (512×512) à une cadence élevée, jusqu’à 40 images par seconde, avec une latence de démarrage négligeable. Autant dire que c’est le graal pour toutes les applications qui nécessitent des avatars parlants réalistes. On peut imaginer des assistants virtuels avec lesquels on pourrait interagir de manière super naturelle, des personnages de jeux vidéo encore plus crédibles et attachants, des outils pédagogiques révolutionnaires pour apprendre les langues ou d’autres matières, des thérapies innovantes utilisant des avatars pour aider les patients… etc etc..

En plus de pouvoir contrôler la direction du regard, la distance de la tête et même les émotions du visage généré, VASA-1 est capable de gérer des entrées qui sortent complètement de son domaine d’entraînement comme des photos artistiques, du chant, d’autres langues…etc.

Bon, évidemment, il reste encore quelques limitations. Par exemple, le modèle ne gère que le haut du corps et ne prend pas en compte les éléments non rigides comme les cheveux ou les vêtements. De plus, même si les visages générés semblent très réalistes, ils ne peuvent pas encore imiter parfaitement l’apparence et les mouvements d’une vraie personne mais les chercheurs comptent bien continuer à l’améliorer pour qu’il soit encore plus versatile et expressif.

En attendant, je vous invite à checker leur page de démo pour voir cette merveille en action. C’est juste hallucinant ! Par contre, vu les problèmes éthiques que ça pourrait poser du style usurpation d’identité, fake news et compagnie, et connaissans Microsoft, je pense que VASA-1 ne sera pas testable par tous bientôt malheureusement. Mais je peux me tromper…

Korben
Tess – En route vers une IA génératrice d’images qui rémunère les artistes
17 avril 2024 à 09:25

Tess – En route vers une IA génératrice d’images qui rémunère les artistes

Korben

Par : Korben

17 avril 2024 à 09:25

Les générateurs d’images IA actuels comme Midjourney, Dall-E et j’en passe, font polémique puisqu’ils piochent allégrement dans les œuvres des artistes sans leur consentement ni rémunération. Mais des solutions sont en train de se mettre en place pour les entreprises qui souhaiteraient utiliser l’IA pour illustrer leurs supports sans pour autant piller les artistes.

Une de ces solutions, c’est Tess qui propose une approche que j’ai trouvée intéressante puisqu’elle met en place des collaborations avec des créateurs pour utiliser leur style dans des modèles de diffusion d’images.

Concrètement, chaque modèle d’IA est entraîné sur le style visuel d’un artiste unique, avec son accord puis l’outil utilise un SDXL custom (Stable Diffusion) pour générer les images. Évidemment, à chaque fois qu’une image est générée avec son style, l’artiste touche des royalties ! C’est gagnant-gagnant donc.

L’outil intègre également un système de métadonnées basé sur le protocole C2PA, qui permet d’identifier clairement les images générées par IA et de les distinguer des créations originales.

L’objectif de Tess est donc clair : démocratiser la création d’images artistiques de qualité, en la rendant accessible au plus grand nombre, tout en rémunérant équitablement les artistes et leur permettant de garder la maitrise de leur art. C’est une bonne idée vous ne trouvez pas ?

Et les artistes dans tout ça ? Et bien si j’en crois le site de Tess, ils sont déjà plus de 100 à avoir déjà sauté le pas, séduits par ce nouveau modèle de rémunération. Maintenant si vous voulez devenir clients de la plateforme, ce n’est malheureusement pas encore ouvert à tous, mais une liste d’attente est en place pour vous inscrire et être tenu au courant.

Korben
Jpegli – La lib JPEG nouvelle génération de Google
3 avril 2024 à 22:44

Jpegli – La lib JPEG nouvelle génération de Google

Korben

Par : Korben

3 avril 2024 à 22:44

Google vient de publier en open source une nouvelle bibliothèque de codage JPEG appelée Jpegli qui permet de compresser vos images 35% plus efficacement qu’avec les codecs JPEG traditionnels, tout en conservant une qualité d’image supérieure.

Non seulement Jpegli est rétrocompatible avec le standard JPEG original, mais en plus il offre des fonctionnalités intéressantes comme le support des composantes 10 bits et plus, ce qui permet d’éliminer les vilains artefacts dans les dégradés pour avoir un rendu beaucoup plus ultra-smooth ^^.

Pour cela, Jpegli utilise de la quantification adaptative et une sélection améliorée des matrices de quantification. En gros, ça réduit le bruit, améliore la qualité d’image, et ça fait des miracles sur la taille des fichiers.

De plus, Jpegli reste aussi rapide que les solutions de codage actuelles, donc vous pouvez intégrer cette merveille dans vos workflows sans sacrifier les performances. Alors voilà, si vous voulez donner un coup de boost à vos sites web et offrir de meilleures images plus belles et plus légères, allez jeter un œil à Jpegli ! Pour le moment, y’a pas encore d’outils de conversion mais les sources sont dispo sur le Github, alors y’a plus qu’à attendre que le monde se l’approprie.

Source

Vue normale