Vue lecture

Il y a de nouveaux articles disponibles, cliquez pour rafraîchir la page.

VoxDrop 1.1 - Le moteur vocal d'Apple est devenu mon préféré

VoxDrop , ma petite app de dictée vocale qui tourne 100% en local sur Mac, passe en version 1.1. Et le gros morceau de cette release, c'est le grand ménage que j'ai fait dans les moteurs de reconnaissance vocale.

Le nouveau venu, c'est donc le moteur d'Apple intégré à macOS 26. Il ne pèse rien à télécharger (0 Mo car il est carrément intégré au système), il gère une tonne de langues et il transcrit quasi en temps réel. Perso, c'est devenu mon préféré et je dicte avec tous les jours depuis des jours ! Seul hic, attention, faudra macOS 26, donc si vous êtes encore sous Sequoia, celui-là vous passera sous le nez.

Du coup j'ai viré Voxtral et Qwen, dont le gain n'était pas dingue, et j'ai mis du lourd à la place : Canary 1B de NVIDIA (le grand frère de Parakeet) et Cohere Transcribe. Ces deux-là squattent le haut du classement des meilleurs modèles de reconnaissance vocale, côté précision donc vous êtes servis !

Le principe, lui, ne bouge pas, vous appuyez sur votre raccourci (⌥+Espace par défaut), vous parlez, et hop, le texte arrive directement là où se trouve votre curseur. Et maintenant, VoxDrop sait aussi transcrire vos fichiers audio ET vidéo par simple glisser-déposer, sur la fenêtre ou sur l'icône dans la barre de menu et identifie même les locuteurs (qui parle, et quand) dans vos enregistrements.

Maintenant, oui, je sais, c'est un outil uniquement macOS parce que j'exploite au maximum les capacités de l'OS d'Apple (CoreML, MLX...etc) pour vous proposer l'expérience la plus rapide qui soit en termes de Speech To Text. Je pourrais porter VoxDrop sous Linux et Windows mais je ne ferais pas mieux que d'autres outils comme Murmure ou Handy qui font très bien le job sur ces OS.

J'ai codé cet outil parce que j'étais frustré par les autres apps que je trouvais peu réactives et là je m'en sers tous les jours, notamment pour dicter mes emails, mes articles et discuter avec Claude Code. C'est instantané et ça me fait gagner un temps de dingue !

VoxDrop peut aussi reformuler ou traduire votre texte en local toujours via Apple Intelligence, en plus du modèle de traduction maison déjà embarqué depuis la version précédente (TranslateGemma). Et j'ai rajouté tous les petits trucs qui changent la vie, comme la suppression automatique des "euh" et autres hésitations pour avoir un texte propre, et j'ai mis aussi le fonctionnement capot fermé du MacBook quand vous bossez sur un écran externe ainsi qu'un dictionnaire de substitutions qui corrige les variantes de vos termes, et un démarrage plus rapide grâce au préchargement du moteur.

Encore une fois, la perf sur cet outil c'est mon obsession.

J'ai aussi corrigé pas mal de bricoles que vous m'aviez remontées, l'espace parasite en début de phrase, le support des AirPods, les raccourcis clavier qui déconnaient et plein de petits gains de stabilité.

Comme pour la version précédente , VoxDrop reste réservé à mes abonnés Patreon. Alors pourquoi pas sur l'App Store ou en open source ? Parce que les deux, c'est un job à plein temps, c'est gérer des clients et du SAV d'un côté, des pull requests et des contributeurs de l'autre. J'ai pas le temps, et franchement pas l'envie.

Je code des outils pour moi depuis l'époque de RockXP, depuis le début des années 2000 et j'en ai profité l'année dernière pour mettre au point un système de licence Patreon maison que j'implémente dans tous mes outils. Comme ça, je développe ce qui me plaît quand je veux pour moi, et ceux qui me soutiennent y ont aussi accès directement, sans pub, ni intermédiaire. C'est un genre de bonus pour mes Patreons quoi...

D'ailleurs, VoxDrop n'est pas mon seul joujou du genre, y'a aussi Evapor8 qui efface le watermark des images générées par Gemini, sous la même licence. Mais ça, je vous en reparle très vite !

Bref, si vous êtes déjà sur mon Patreon , la 1.1 vous attend. Et sinon, vous savez quoi faire. 🙏

Ps : Je mets à jour le site de VoxDrop prochainement, et je vais aussi modifier le nom de l'app car depuis que je l'ai sortie en 2025, y'a eu des copycats qui sont arrivés avec le même nom donc je vais changer ça rapidement pour leur couper l'herbe sous le pied.

Taphouse - La GUI Homebrew avec scanner CVE intégré

Multimodal Solutions, une boîte grecque, vient de sortir Taphouse 1.5 qui est une GUI native macOS pour Homebrew. GUI c'est pas que le nom de votre collègue qui fout rien, c'est surtout un acronyme qui veut dire Graphic User Interface (Interface Graphique !). Et pour Homebrew, bah c'était pas du luxe.

Parce que Homebrew, c'est le standard chez les développeurs Mac, mais tout passe par le terminal. Faut taper brew install, gérer les services, fouiller l'arbre de dépendances en CLI (Command Line Interface), et c'est pas le pied quand on veut juste installer Firefox et passer à autre chose dans sa vie !

Des interfaces graphiques pour Homebrew, y'en a déjà quelques-unes (par exemple Cakebrew, Applite, Cork, WailBrew) sauf que Taphouse arrive avec 2 trucs qu'on voit rarement ailleurs : un scanner CVE intégré et un détecteur d'apps Intel qui tournent encore sous Rosetta.

Le scanner CVE, fait qu'à chaque installation, Taphouse compare la version de chaque package avec les feeds de vulnérabilités, avec des codes couleur selon la sévérité, et linke directement vers la base NVD et les rapports fournisseur.

Ainsi, quand une nouvelle CVE tombe, ça rescan en arrière-plan comme ça, sur des dépendances qu'on oublie de mettre à jour pendant des mois, y a de quoi repérer les vulnérabilités connues avant qu'elles posent un vrai problème côté sécurité.

L'autre feature pas mal, c'est donc la détection des apps Intel qui tournent encore sous Rosetta. Si vous êtes passé d'un Intel à un Mac M* , vous avez sûrement traîné des binaires Intel dans /Applications sans même vous en rendre compte. Taphouse scanne le dossier, repère les x86_64 et, quand un cask compatible existe, il vous propose la version Apple Silicon native via Homebrew. J'ai testé sur mon install et, ça m'a remonté tous mes binaires Intel oubliés comme ça j'ai pu faire un peu de ménage.

Dans sa version gratuit, vous avez le droit à +14 000 formules et casks, l'installation en un clic, la gestion des services Homebrew (start, stop, restart), le nettoyage de l'espace disque, l'aperçu des dépendances, et un gestionnaire de quarantaine Gatekeeper. Y'a aussi de quoi repousser une mise à jour pour 1 jour, 1 semaine ou 1 mois quand on n'a pas envie de se taper un brew upgrade en plein rush de boulot.

Pour les power-users, la version pro débloque la migration Apple Silicon assistée, l'aperçu des release notes GitHub en direct dans l'app, et un tableau de bord "santé du système" avec un score global. Je ne sais pas si ça vous sera utile mais ça coute moins de 10 balles pour une licence à vie, ce qui se fait de plus en plus rare maintenant.

Notez que Taphouse n'est pas open source malgré le repo GitHub qui n'héberge que les rapports de bug. Maintenant entre une app gratuite et Taphouse Pro à 9,99 €, ça dépend de ce que vous cherchez. Applite couvre 80% du besoin si vous n'installez que des casks (pas les formules), et de son côté, Cork est open-source et gratuit mais le binaire pré-compilé est payant.

Y'a aussi Cakebrew qui est encore dispo mais le projet ne semble plus maintenu. Ce qui est surtout cool avec Taphouse c'est le CVE scanning et cette migration Apple Silicon assistée dont je vous parlais.

Si vous voulez l'installer, ça peut se faire via Homebrew lui-même avec brew install --cask taphouse. Sinon, téléchargement direct sur le site officiel .

Bref, si vous gérez votre Mac avec Homebrew et que vous en avez marre du terminal, Taphouse mérite un petit coup d'œil.

Source

Boring Notch - L'encoche du MacBook devient enfin utile !

Depuis 2021, Apple colle une encoche en haut des écrans de MacBook et n'en fait à peu près rien. C'est juste une zone sombre pour cacher la caméra et qui mange la barre des menus.

Heureusement, l'équipe TheBoredTeam a décidé que ça suffisait et vient de sortir boring.notch , une app gratuite et open source qui transforme ce trou noir en un vrai centre de contrôle dynamique, dans l'esprit de la Dynamic Island de l'iPhone.

L'installation se fait avec Homebrew comme ceci :

brew install --cask TheBoredTeam/boring-notch/boring-notch

Et ensuite, suffit de poser le curseur sur l'encoche, elle se déploie, et vous tombez sur les contrôles de votre musique avec un visualiseur animé, une zone où glisser-déposer vos fichiers, un affichage pour le volume et luminosité entièrement refait, l'indicateur de batterie et même votre prochain rendez-vous Tinder dans votre agenda.

La zone pour les fichiers est la fonction que je trouve la plus pratique car vous balancez un fichier et il reste là, accessible, à tout moment. Vous pouvez alors le ré-attraper depuis n'importe quelle fenêtre, façon presse-papier physique. La fonctionnalité est inspirée du projet DropNotch et reprend même un comportement type AirDrop. C'est pratique par exemple pour trimballer un screenshot d'une app à l'autre sans le perdre dans tout le bazar que vous avez sur votre Bureau (mon Bureau ressemblant à un champ de bataille, je valide).

L'app joue donc dans la même cour que NotchNook, l'app d'encoche la plus connue sauf que NotchNook, ça coute 25 dollars de licence ou 3 dollars par mois en abonnement. Boring Notch, lui, est gratuit et sous licence libre.

Notez que l'équipe n'a pas encore de compte développeur Apple, du coup, au premier lancement, macOS va gueuler que l'app vient d'un développeur non identifié. Si vous passez par Homebrew, le souci est réglé automatiquement mais sinon, après avoir déposé l'app dans Applications, une seule commande dans le Terminal lèvera le blocage de Gatekeeper.

xattr -dr com.apple.quarantine /Applications/boringNotch.app

Vous pouvez aussi passer par Sentinel si vous n'êtes pas à l'aise avec le terminal.

Dans le genre petit utilitaire macOS qu'on installe et qu'on ne lâche plus, ça rejoint des trucs comme Lolgato pour dompter ses Elgato ou DeskPad et son écran virtuel. Et le projet ne compte pas s'arrêter là puisque la roadmap annonce l'intégration des rappels, une fonction miroir pour vérifier sa tête en visio, le contrôle gestuel personnalisable, des widgets d'écran verrouillé, la météo et carrément un système d'extensions. Bref, cette encoche qui rime avec moche pourrait devenir un hub central du Mac à l'avenir.

Et il est également très probable qu'Apple s'empare de l'idée pour da prochaine release majeure de macOS, qui sait ?

vLLM-MLX - Pour remplacer l'API d'OpenAI par votre propre Mac

Si vous avez un Mac avec une puce Silicon et que vous en avez marre de raquer pour des tokens à chaque requête API à un LLM à la con, y'a un projet qui mérite, je trouve, le détour. Ça s'appelle vLLM-MLX , et c'est un serveur d'inférence local qui transforme votre Mac en machine à générer du texte, à analyser des images et vidéos, et même capable de gérer de l'audio... et tout ça sans que l'inférence ne passe par le cloud des zaméricains.

Pour installer le bouzin, ça se fait avec :

uv tool install vllm-mlx

Puis vous lancez suivi du nom d'un modèle et hop, vous obtenez un endpoint API compatible OpenAI qui tourne en local sur votre machine :

vllm-mlx serve %MODEL%

Au début je pensais que j'étais parti pour une séance de configuration qui aller durer des heures mais en fait non. Par exemple moi j'ai lancé ça :

vllm-mlx serve mlx-community/GLM-4.7-Flash-4bit

Vous pouvez aussi opter pour un modèle plus petit :

vllm-mlx serve mlx-community/Qwen2.5-Coder-3B-Instruct-4bit

Du coup, si vos scripts causent déjà avec l'API d'OpenAI, basculer sur ça en local rien qu'en changeant l'URL de base, c'est un jeu d'enfant !

Côté perfs, et là je reprends les benchmarks officiels du repo (M4 Max 128 Go, mono-requête), on tourne autour de 418 tok/s sur un petit Qwen3-0.6B en 8-bit. Ensuite, ça tombe à environ 206 tok/s sur du Llama-3.2-3B et 128 tok/s sur un gros Qwen3-30B-A3B.

Le débit grimpe aussi quand plusieurs requêtes tapent en même temps à la porte... Donc sur les petits modèles ça file vite, mais par contre, sur les gros, faudra pas s'attendre à la même vitesse, hein... Et un Qwen3-30B vous bouffera dans les 18 Go de RAM unifiée, donc sur un Mac à 8 ou 16 Go vous pouvez oublier les gros modèles (Mais qui n'a pas encore un Mac Studio 128 Go ?? hein ? Quiiii ?).

Et c'est pas juste un serveur de texte comme je vous le disais, puisque le projet gère les modèles de vision type Gemma 3, Qwen3-VL, Pixtral, pour analyser images et les vidéos, et côté audio y'a du TTS natif (avec Kokoro, Chatterbox et compagnie) + de la transcription Whisper qui monte jusqu'à 197x le temps réel avec whisper-tiny, ou 55x avec le modèle turbo.

Attention par contre, il vous faudra la version avec l'extra audio (espeak-ng et un modèle spaCy), car c'est pas inclus dans la commande de base. Mais une fois en place, y a de quoi se monter un vrai assistant vocal 100% local et causer synthèse vocale sans louer un GPU chez Azure ou AWS.

Même le endpoint /v1/messages est compatible Anthropic, ce qui permet de brancher Claude Code ou OpenCode directement sur votre serveur comme je vous l'expliquais ici . Suffit d'utiliser ces variables d'environnement et votre éditeur IA ira taper sur votre propre machine plutôt que sur des serveurs distants.

unset ANTHROPIC_API_KEY
export ANTHROPIC_BASE_URL="http://127.0.0.1:8000"
export ANTHROPIC_AUTH_TOKEN="dummy"
claude --model mlx-community/GLM-4.7-Flash-4bit

ou :

claude --model mlx-community/Qwen2.5-Coder-3B-Instruct-4bit

Avouez que c'est trop cool hein ? Vous pouvez trouver tous les modèles pour MLX ici sur HugginFace si vous cherchez un truc plus spécifique.

Y'a aussi un endpoint d'embeddings pour faire du RAG en local, de l'appel d'outils externe via MCP avec une douzaine de parsers et le support des modèles de raisonnement qui extraient proprement le processus de réflexion entre les balises <think> pour Qwen3 et DeepSeek-R1.

J'adore !

Côté bidouille si vous vous lancer, sachez qu'il y a 2 ou 3 flags vachement utiles à connaitre.

Par exemple, le --warm-prompts (couplé au continuous batching) précharge les préfixes populaires au démarrage et, dans le bon scénario, vous gagne entre 1,3 et 2,25x sur le temps de première réponse.

Sur les gros modèles MoE genre Qwen3-30B-A3B, le --moe-top-k réduit aussi le nombre d'experts activés pour gratter 7 à 16% de débit. Le hic, c'est que vous y perdez un poil de qualité.

Et pour les agents qui brassent des contextes énormes, le --ssd-cache-dir déverse le cache de préfixes sur SSD pour soulager la RAM, au prix d'un peu de latence quand ça tape sur le disque.

Bref, si vous cherchez une alternative à Ollama qui tape direct dans le GPU de votre Mac avec du batching et du multimodal, le tout avec une compatibilité API aux petits oignons, foncez les amis ! C'est open source (Apache 2.0), ça dépote et ça s'installe en deux commandes !

Et si vous êtes sur PC plutôt que sur Mac, j'ai écrit la suite sur Lemonade SDK , l'équivalent côté AMD qui tape dans le NPU Ryzen AI.

Merci à Christian pour la découverte !

❌