Vue normale

Il y a de nouveaux articles disponibles, cliquez pour rafraîchir la page.
À partir d’avant-hierTech Généraliste

FaceFusion – Du swaps de visages vite fait mais surtout bien fait

Par : Korben
14 mai 2024 à 09:00

Dernièrement, j’ai testé FaceFusion et j’ai adoré, donc je voulais vous en parler rapidement. Il s’agit d’un outil open source qui permet de faire des échanges de visages (swap) d’une excellente qualité aussi bien avec des photos que des vidéos. Vous vous en doutez, le tout est boosté par de l’intelligence artificielle comme un peu tout ce qui sort en ce moment.

En gros, vous prenez votre visage, vous la collez sur une autre, et bim, ça donne un truc hyper réaliste en quelques clics !

Sous le capot, FaceFusion utilise des techniques de pointe en deep learning pour détecter et aligner les visages avec une précision chirurgicale. Ça passe par des modèles comme YOLOFace ou RetinaFace pour repérer les faciès, puis des algos transforment et mixent tout ça façon Picasso du futur.

Le résultat est assez bluffant puisque vous pouvez littéralement mettre votre tronche de cake à la place de Leonardo DiCaprio et devenir la star de Titanic en deux temps trois mouvements (de brasse coulée).

FaceFusion est optimisé pour le GPU mais fonctionnera également sur votre bon vieux CPU et cela même sur des vidéos en grosses résolutions. D’ailleurs, y’a ‘tout un tas de réglages pour gérer la qualité, que ce soit pour du swap d’image ou de vidéo.

Et histoire de vous simplifier la vie, une jolie interface graphique est même fournie pour piloter l’outil sans mettre les mains dans le cambouis.

Franchement, FaceFusion c’est un outil vraiment cool mais faudra quand même pas déconner et en faire n’importe quoi hein, genre swapper des têtes de politiques pour faire des deep fakes SURTOUT AVEC BURNO LE MAIRE, ça peut vite partir en vrille. 😅

Bref que ce soit pour faire des blagues à vos potes, créer des effets spéciaux délirants, ou juste explorer le champ des possibles de l’IA appliquée à l’image, FaceFusion risque de vite devenir votre nouveau meilleur ami. Et vu que c’est open source, vous pouvez mettre les mains dans le code si ça vous éclate.

Bref, foncez sur le GitHub et en cadeau, je vous ai même fait une vidéo tuto !

Merci les Patreons pour le soutien !

VASA-1 – Des visages parlants ultra-réalistes et en temps réel

Par : Korben
18 avril 2024 à 01:49

VASA-1 est un nouveau framework qui permet de générer des visages parlants ultra-réalistes en temps réel ! En gros, vous balancez une simple photo à cette IA, ainsi qu’un petit clip audio, et bim ! Elle vous pond une vidéo d’un visage qui parle, avec une synchronisation de la bouche nickel chrome, des expressions faciales hyper naturelles et des mouvements de tête très fluides. C’est hyper bluffant !

Les chercheurs de Microsoft ont réussi ce tour de force en combinant plusieurs techniques de pointe en deep learning. Ils ont d’abord créé un espace latent expressif et bien organisé pour représenter les visages humains. Ça permet de générer de nouveaux visages variés, qui restent cohérents avec les données existantes. Ensuite, ils ont entraîné un modèle de génération de dynamiques faciales et de mouvements de tête, appelé le Diffusion Transformer, pour générer les mouvements à partir de l’audio et d’autres signaux de contrôle.

Et le résultat est juste époustouflant. On a l’impression de voir de vraies personnes qui parlent, avec toutes les nuances et les subtilités des expressions faciales. Les lèvres bougent parfaitement en rythme avec les paroles, les yeux clignent et regardent naturellement, les sourcils se lèvent et se froncent…

En plus de ça, VASA-1 peut générer des vidéos en haute résolution (512×512) à une cadence élevée, jusqu’à 40 images par seconde, avec une latence de démarrage négligeable. Autant dire que c’est le graal pour toutes les applications qui nécessitent des avatars parlants réalistes. On peut imaginer des assistants virtuels avec lesquels on pourrait interagir de manière super naturelle, des personnages de jeux vidéo encore plus crédibles et attachants, des outils pédagogiques révolutionnaires pour apprendre les langues ou d’autres matières, des thérapies innovantes utilisant des avatars pour aider les patients… etc etc..

En plus de pouvoir contrôler la direction du regard, la distance de la tête et même les émotions du visage généré, VASA-1 est capable de gérer des entrées qui sortent complètement de son domaine d’entraînement comme des photos artistiques, du chant, d’autres langues…etc.

Bon, évidemment, il reste encore quelques limitations. Par exemple, le modèle ne gère que le haut du corps et ne prend pas en compte les éléments non rigides comme les cheveux ou les vêtements. De plus, même si les visages générés semblent très réalistes, ils ne peuvent pas encore imiter parfaitement l’apparence et les mouvements d’une vraie personne mais les chercheurs comptent bien continuer à l’améliorer pour qu’il soit encore plus versatile et expressif.

En attendant, je vous invite à checker leur page de démo pour voir cette merveille en action. C’est juste hallucinant ! Par contre, vu les problèmes éthiques que ça pourrait poser du style usurpation d’identité, fake news et compagnie, et connaissans Microsoft, je pense que VASA-1 ne sera pas testable par tous bientôt malheureusement. Mais je peux me tromper…

❌
❌