FFmpeg devient fou et intègre l'IA Whisper d'OpenAI pour transcrire vos vidéos

Par : Korben

13 août 2025 à 19:22

Un commit qui change tout dans le petit monde de FFmpeg vient d’atterrir sur leur Git : L’intégration native de Whisper. Mais siii, vous savez, cette IA de reconnaissance vocale open source d’OpenAI. Eh bien maintenant, elle débarque directement dans votre outil de traitement vidéo favori.

Alors, ça veut dire quoi en français ? Et bien plus besoin de jongler entre plusieurs outils pour transcrire une vidéo. Terminé le bon vieux temps où il fallait extraire l’audio, le balancer dans un script Python avec Whisper, récupérer la transcription, la formater en SRT, puis la réinjecter dans FFmpeg.

Maintenant, tout se fait d’un coup avec une seule ligne de commande.

Le commit responsable de cette petite révolution, c’est celui de Vittorio Palmisano, daté du 17 juillet dernier et intégré par Michael Niedermayer le 8 août. Ce développeur a créé en fait un filtre audio qui s’appuie sur whisper.cpp, la version optimisée de Whisper qui tourne comme une bombe sur CPU et GPU.

Ce qui est particulièrement malin dans cette intégration, c’est le paramètre “queue” qui vous permet de doser entre rapidité et qualité. Avec une valeur de 3 secondes par défaut, vous avez une transcription qui se met à jour fréquemment mais avec une précision correcte. Si vous poussez à 10-20 secondes, la qualité monte d’un cran mais vous sacrifiez la réactivité. Un compromis classique, mais au moins vous avez le choix.

Pour les gros volumes, il y a même le support GPU pour décharger le boulot de transcription sur votre carte graphique. Et si vous voulez être encore plus précis, vous pouvez activer la VAD (Voice Activity Detection) qui va découper intelligemment votre audio selon les pauses dans la parole.

Le filtre peut sortir directement en format SRT pour vos sous-titres, mais aussi en JSON si vous voulez envoyer le résultat vers un service web, ce qui est super pratique pour intégrer ça dans une chaîne de traitement automatisée.

Cette intégration marque un tournant pour FFmpeg qui sort de son rôle traditionnel de couteau suisse multimédia pour embrasser l’IA qui visiblement devient suffisamment mature pour être intégrée nativement dans nos outils de base.

Maintenant, pour compiler FFmpeg avec ce nouveau super pouvoir, il faut ajouter l’option --enable-whisper à la configuration et s’assurer que whisper.cpp est installé sur votre système. Normalement, rien de bien sorcier si vous avez l’habitude de compiler des trucs mais moi j’en ai chié comme pas possible.

La commande magique ressemble à ça :

./ffmpeg -i test.mp4 -vn \
-af "whisper=model=ggml-large-v3.bin:language=auto:queue=3:destination=whisper_output.srt:format=srt" \
-f null -

Simple, efficace, et ça fonctionne aussi bien sur des fichiers pré-enregistrés que sur des flux audio en direct. La transcription automatique est maintenant accessible à tous ceux qui maîtrisent FFmpeg.

J’ai pris 15 secondes d’une vidéo à moi, et j’ai fait tourner le modèle Large V3 de Whisper au travers de FFmpeg et ensuite, j’ai incrusté (toujours avec FFmpeg) les sous-titres dans la vidéo. Voici ce que ça donne (extrait de 15 sec) :

Et voici ma commande tout en 1 :

./ffmpeg -i test.mp4 -vn -af "whisper=model=ggml-large-v3.bin:language=auto:queue=3:destination=temp.srt:format=srt" -f null - && \
ffmpeg -i test.mp4 -vf "subtitles=temp.srt:force_style='FontName=Arial,FontSize=32,PrimaryColour=&HFFFFFF,OutlineColour=&H000000,BackColour=&H80000000,BorderStyle=4,Outline=2,Shadow=1,MarginV=40,Alignment=2'" -c:a copy output_final.mp4

Si vous ne savez pas compiler ce truc, pas de soucis, puisque cette nouveauté sera disponible dans FFmpeg 8.0 qui devrait sortir dans les prochaines semaines.

Alors vous voyez déjà quels usages vous pourriez en faire ?

Vue normale

FFmpeg devient fou et intègre l'IA Whisper d'OpenAI pour transcrire vos vidéos

Extraire les sous-titres de n'importe quelle vidéo Youtube en Python