Vue normale

Il y a de nouveaux articles disponibles, cliquez pour rafraîchir la page.
Hier — 1 juillet 2026Flux principal

GLM 5.2 - Le premier modèle IA open source que je garde

Par : Korben ✨
30 juin 2026 à 18:42

Les amis, il faut que je vous parle de GLM 5.2 . Je l'utilise en ce moment même à travers Z.ai, et c'est la première fois qu'un modèle open weights me donne satisfaction sur ce que je lui demande de faire. Et dieu sait que j'en ai testé de ces putains de modèles !

GLM 5.2, c'est le dernier-né de Z.ai, le lab chinois connu avant sous le nom de Zhipu AI. Il est sorti en ce mois-ci (en juin), et c'est un gros bébé avec ses 744 milliards de paramètres en Mixture-of-Experts (MoE), dont à peu près 40 milliards qui s'activent pour chaque token, ainsi qu'une fenêtre de contexte qui monte à 1 million de tokens via la déclinaison glm-5.2[1m]. Le tout publié, comme toujours, sous licence MIT, avec les poids téléchargeables sur HuggingFace.

Bref, j'y croyais pas trop, mais j'ai quand même pris le petit abonnement Z.ai et j'ai lancé mes outils habituels et codé quelques nouvelles features sur mes logiciels. Et Ô surprise, il s'en sort très très bien pour mes usages (je dis bien pour mes usages !). J'ai eu aucun bug, pas de discussion à l'infini qui tourne autour du pot, ni de fin de conversation qui part en caractères chinois comme me faisait souvent Qwen.

Après, le truc chouette, c'est que je l'ai branché directement dans Claude Code. Si ça vous intéresse, je me suis fait un petit launcher spécifique. C'est cadeau :

#!/usr/bin/env bash
export ANTHROPIC_BASE_URL="https://api.z.ai/api/anthropic"
export ANTHROPIC_AUTH_TOKEN=VOTRE_CLE_API
export ANTHROPIC_DEFAULT_SONNET_MODEL="glm-5.2[1m]"
export ANTHROPIC_DEFAULT_OPUS_MODEL="glm-5.2[1m]"
export CLAUDE_CODE_AUTO_COMPACT_WINDOW="1000000"
claude "$@"

Vous le sauvegardez sous le nom de votre choix, par exemple "glm". Puis vous faites un :

chmod +x glm

Et ensuite vous le lancez comme ceci :

./glm

L'idée, c'est que comme l'API de Z.ai est compatible Anthropic, il suffit de pointer Claude Code vers leur endpoint, de glisser votre clé, et il cause à GLM 5.2 comme il causerait à Claude. Mes skills, mes scripts, tout marche pareil, c'est le feu !

Je regrette juste une chose, c'est de ne pas pouvoir le faire tourner en local chez moi. Parce que le bestiau, il est TROP gros. Même raboté et quantifié en 2-bit pour la maison , il vous bouffe dans les 240 Go de RAM. Chez moi, j'ai pas le matos, et vous probablement pas non plus. Donc pour le moment, l'API, c'est la seule porte d'entrée réaliste et abordable.

Que ce soit Qwen, Llama, Kimi, DeepSeek, peu importe ce que j'ai testé en local, pour mes usages un peu chiadés, à chaque fois je suis super déçu. Alors celui-là, pour ce que je lui demande, il tient très bien la route.

Maintenant, je vais pas vous vendre ça non plus comme un Claude Killer mais j'ai quand même trouvé un benchmark qui confirme mon ressenti. Sur le leaderboard Arena.ai dédié au code front-end, GLM 5.2 pointe à la deuxième place, juste derrière Fable 5. Et comme tout ce qui le précède est propriétaire, ça en fait le premier modèle open weights à ce niveau du classement.

Donc c'est pas la meilleure IA du monde, hein, mais c'est la première open source qui me donne un résultat qui me convient. Et vous savez tous à quel point je suis chiant et exigeant avec ce genre d'outil. En tout cas, c'est la première fois que je me dis que l'IA open source pourrait vraiment entrer dans mon flux du quotidien, et pas juste rester un joujou pour classer des trucs ou faire du slop sur des blogs de SEO. Maintenant, entre nous, j'attends surtout que Fable 5, ou son équivalent, revienne mettre le feu !!

Si ça vous tente d'essayer, il y a donc le GLM Coding Plan de Z.ai, qui démarre à 18 dollars par mois et qui est surtout taillé pour le code. Il se branche sur Claude Code, Cline et une vingtaine d'outils du même acabit. Petit conseil au passage, ce lien vers le Plan GLM est un lien affilié certes, mais il vous offre 10 % de réduc si vous l'utilisez, et ça me file un petit truc aussi, donc tout le monde y gagne.

Voilà, si vous codez avec autre chose jusqu'ici, ça vaut le coup d'y jeter un œil par curiosité.

Source : Z.ai

Hugging Face sait enfin vous dire si un modèle tourne sur votre machine

Par : Korben ✨
30 juin 2026 à 18:24

Vous avez une petite carte graphique, un vieux Mac ou juste un bon processeur, et vous cherchez LE modèle d'IA parfait qui pourra tourner en local sans que ça rame ?

Hugging Face vient d'ajouter le filtre qui manquait à sa page Models : un sélecteur de matériel qui ne vous proposera que les modèles réellement compatibles avec votre machine.

Vous renseignez votre config (une RTX 3060, un processeur AMD, une puce Apple Silicon M2…) dans les réglages de votre compte, et le catalogue ne gardera plus que ce qui passe pour un GPU, un CPU ou une puce Apple précis.

Fini l'époque, donc, où il fallait ouvrir chaque fiche, chercher la VRAM requise, sortir la calculette et croiser les doigts au moment du lancement.

Ce filtre d'Hugging Face repose sur la taille des fichiers proposés, notamment les versions quantifiées au format GGUF, ces modèles compressés qui font tourner de grosses IA sur des machines modestes, et sur la RAM ou la VRAM de votre config déclarée. Cette base hardware est constituée de ce que possède réellement la communauté des 300 000 membres qui ont accepté de déclarer leur matériel.

Une fois le bon modèle repéré, vous récupérez les commandes via le bouton "Use this model" présent sur chaque fiche, puis vous lancez tout ça avec les outils habituels de l'IA locale, du genre llama.cpp, Ollama ou LM Studio. Et pour ceux qui veulent aller plus loin sur Apple Silicon, il existe également des serveurs d'inférence maison pour remplacer l'API d'OpenAI par votre propre Mac .

Maintenant, si vous avez un chip un peu exotique, un accélérateur NPU ou une carte à peine sortie, il faudra parfois patienter, voire passer par le forum pour réclamer son ajout dans la base, mais bon, je chipote !

Source

À partir d’avant-hierFlux principal

Alexandria - Vos ebooks en livres audio multi-voix, en local

Par : Korben ✨
29 juin 2026 à 18:18

Je ne suis pas très client des livres audio parce que mon cerveau, en général, part faire des trucs dans son coin et je me retrouve à rien écouter du tout. Je préfère un petit podcast où ça rigole qu'une œuvre littéraire qui demande de la concentration.

Mais je sais que vous appréciez beaucoup les livres audio et il arrive très souvent qu'un bouquin n'ait pas sa version audio. Un vieux roman qui n'est plus édité, un PDF technique, une fanfiction de 800 pages, un article de korben.info ou juste un truc que personne chez Audible ne prendra le temps d'enregistrer parce que ça n'intéresse que vous.

Mais youpi, Finrandojin, un internaute, en a eu marre d'attendre l'audiobook de ses rêves et a codé Alexandria, un générateur de livre audio qui tourne 100% en local sur votre ordi.

Vous balancez un fichier .txt, .md ou .epub, dans l'appli, puis un LLM découpe le texte et annote chaque ligne avec le personnage qui parle et la manière dont il le dit, puis le moteur Qwen3-TTS joue le tout en local comme une vraie troupe de doubleurs professionnels. Et le résultat est assez propre, même si ça ne vaut pas encore un vrai enregistrement fait par un vrai humain. M'enfin, faute de mieux, pourquoi pas !

Et surtout, ce LLM qui fait le découpage, vous le branchez où vous voulez. En local via LM Studio ou Ollama, ou dans le cloud avec OpenAI ou n'importe quelle API compatible. Ensuite, une fois le script annoté, Alexandria vous propose 9 voix pré-entraînées avec contrôle de l'émotion et du ton.

Vous pouvez aussi cloner une voix à partir de 5 à 15 secondes d'échantillon, ou carrément en fabriquer une à partir d'une simple description écrite. Vous tapez par exemple "Une voix masculine chaude et grave, au ton calme et posé" (c'est ma voix quoi...lol) et hop, il vous la fabrique.

La fonctionnalité de génération de personnas fait également gagner un temps de dingue puisqu'en un clic, le LLM analyse le bouquin, invente une description de voix pour chaque personnage, génère l'audio de référence et assigne tout automatiquement.

Et pour les obsédés du détail, il y a même un éditeur web où vous regénérez n'importe quelle ligne individuellement, du training LoRA pour vous fabriquer des voix persistantes, et un export en MP3 en pistes séparées pour bidouiller ça ensuite dans Audacity, ou en M4B chapitré qui rentre direct dans Audiobookshelf, Apple Books ou VLC. Et tout ça bien sûr, dans une dizaine de langues, français compris.

Alexandria exigera par contre une carte graphique avec 8 Go de VRAM au minimum, 16 et plus si vous voulez du débit correct. Et si vous êtes sur Mac, mauvaise nouvelle, l'accélération MPS d'Apple Silicon n'est pas encore supportée, donc ça tournera en mode CPU, donc ce sera lent. Mais c'est pas très grave, vous lancez la génération, et vous retournez lire d'autres articles sur mon site pour passer le temps.

Même galère aussi pour les gens qui ont de l'AMD sous Windows. Les chanceux par contre, ce sont les possesseurs de NVIDIA sous Windows ou Linux et les AMD sous Linux. Maintenant si vous tenez juste à faire parler votre Mac sans y passer trois heures par chapitre , vous serez mieux servi ailleurs qu'avec Alexandria.

Pour l'installation, le plus simple passe par Pinokio en deux clics, et si vous n'avez pas le GPU qui va bien, il y a un notebook Google Colab pour tourner sur un T4 gratuit dans le navigateur. Comptez quand même un téléchargement de 3,5 Go pour les modèles TTS à la première utilisation, ils ne sont pas inclus dans l'install.

Vous l'aurez compris, c'est du DIY un peu gourmand en GPU, mais pour tous vos ebooks à écouter qui n'auront jamais de narrateur, ça ouvre les perspectives ! Le code est sous licence MIT et je vous invite quand même à tester avec un chapitre avant de vous lancer dans un roman entier.

Source

Dream Server - Un serveur IA complet chez vous en une commande

Par : Korben ✨
26 juin 2026 à 16:41

Monter une vraie IA à la maison, c'est vite une galère. Vous achetez une super machine puis vous collez dessus toute votre liste au père Noël (Chat local, reco vocale, génération d'image, RAG et compagnie) et vous voilà à empiler des dockers à n'en plus finir. Eh bien Light Heart Labs en a eu marre de ces bricolages et nous a pondu Dream Server, un outil qui câble tout ce petit monde à votre place !

Une seule commande et c'est parti mon kiki (Linux et macOS) :

curl -fsSL https://raw.githubusercontent.com/Light-Heart-Labs/DreamServer/main/dream-server/get-dream-server.sh | bash

Ou Windows :

Set-ExecutionPolicy -Scope Process -ExecutionPolicy Bypass
git clone https://github.com/Light-Heart-Labs/DreamServer.git
cd DreamServer
.\install.ps1

Ça va lancer le script qui va ensuite tout paramétrer tout seul et choisir le modèle d'IA qui collera le plus à votre matériel, et cela que vous ayez une RTX 4090, un Mac M4 avec mémoire unifiée ou encore une puce AMD Strix Halo voire un vieux PC sans GPU.

Edit : un lecteur m'a remonté un piège si vous êtes sous Linux configuré en français (ou n'importe quelle locale qui écrit les décimales avec une virgule). Le script génère tout seul les valeurs de votre fichier .env en suivant le format de nombres de votre système, et il vous colle des 16,0 au lieu de 16.0. Du coup l'install se vautre avec une erreur dans le genre COMFYUI_CPU_LIMIT: expected number, got '16,0'. La parade, confirmée par un des auteurs, c'est de relancer l'installeur en forçant la locale C (celle qui met des points à la place des virgules) :

LC_ALL=C ./install.sh

Ensuite, pendant que le LLM se télécharge à fond les ballons, un autre petit modèle de 1,5 milliards de paramètres en backup afin que vous puissiez quand même "discuter" avec votre Dreamserver.

Le rôle de Dreamserver c'est donc juste de prendre toutes les briques de l'IA pour vous en faire un truc clé en main. Open WebUI pour le chat, llama-server pour l'inférence, Whisper et Kokoro pour la voix, ComfyUI pour les images, Qdrant pour le RAG, SearXNG pour la recherche web sans mouchard, et bien sûr n8n pour brancher tout ça à vos automatisations.

Et une fois que c'est en route, suffit de lancer la commande dream et là vous pourrez tout faire.

Par exemple dream status pour visualiser l'état des services et du GPU, dream model swap T3 pour changer de "palier" sur votre matos, dream enable n8n pour activer une extension ou encore dream mode hybrid pour avoir de l'inférence en local avec possibilité de basculer sur une IA dans le cloud via une API.

Dreamserver reste un orchestrateur, et pas un moteur IA magique, donc si vous adorez tout assembler vous-même, vous n'avez clairement pas besoin de ça. Par contre, si vous vous en foutez, et que vous voulez juste votre IA qui tourne ce soir, ça vous fera gagner des heures de bidouille.

Faut dire qu'à mesure que l'IA devient une infrastructure de base, dépendre à 100% d'un abonnement cloud qui peut tripler ses tarifs ou couper votre accès du jour au lendemain, ça craint un peu. Donc je pense qu'on est tous bien contents d'avoir des solutions clé en main comme celle-ci.

Si ça vous tente, c'est sur le dépôt de Dream Server .

Surface RTX Spark Dev Box - L'IA locale signée NVIDIA

Par : Korben ✨
7 juin 2026 à 21:52

Microsoft vient d'annoncer lors de son événement Build 2026 l'arrivée de sa Surface RTX Spark Dev Box, un petit boîtier qui se pose sur le bureau et qui fait tourner des modèles IA de 120 milliards de paramètres en local, sans rien envoyer dans le cloud.

Et bien sûr derrière le badge Surface, c'est NVIDIA qui se tape tout le boulot.

Dans cette boîte noire, vous avez donc la puce NVIDIA RTX Spark, qui rassemble un GPU Blackwell et un processeur Grace pour sortir environ 1 pétaflop de puissance IA et 128 Go de mémoire unifiée.

De quoi donc faire tourner un gros modèle avec une fenêtre de contexte d'un million de tokens, ou carrément affiner (fine-tuner) un modèle sans louer des GPU dans le cloud. Le tout dans un châssis en aluminium pensé pour servir de dissipateur, donc refroidi passivement. Et un malheur n'arrivant jamais seul (je plaisante ^^), Windows 11 Pro arrive préconfiguré dessus pour les devs, avec tous les outils qui vont bien déjà installés.

D'après le site de Microsoft, ce petit joujou sera donc dispo fin 2026, aux États-Unis d'abord.

Détails du châssis

Maintenant, le truc à bien capter, c'est que cette puce RTX Spark, c'est exactement la même famille que la DGX Spark , le mini-PC que NVIDIA vend depuis octobre dernier. Même architecture Grace Blackwell, même pétaflop, mêmes 128 Go unifiés.

Eh oui, Microsoft n'a pas conçu de puce maison pour cette box (ses puces Maia, c'est pour ses datacenters), mais a juste pris la plateforme d'NVIDIA et l'a habillée en Surface avec une image Windows maison. Ce qui n'est pas grave, hein, mais autant le savoir avant de croire à une révolution Microsoft.

Côté tarif, pas de chiffre officiel encore mais les estimations tournent autour de 3500 dollars. Pour vous donner une idée, la DGX Spark d'NVIDIA, sa cousine sous Linux, est passée de 3999 à 4699 dollars récemment, la faute à la flambée des prix de la mémoire. Donc, ce ne sera pas donné, mais vous vous en fichez parce que vous êtes probablement pété de thunes ^^.

Cela dit, même si c'est cher, l'idée de faire tourner un modèle costaud entièrement chez soi, ça reste sacrément séduisant. Vos données ne sortent jamais de la machine, y'a zéro facture d'API qui gonfle à chaque requête, et vous pouvez bidouiller un fine-tuning maison tranquillement. C'est une tendance qu'on voit monter depuis un petit moment maintenant avec par exemple des gens qui glissent un GPU de datacenter dans leur PC gaming juste pour s'affranchir du cloud ^^.

Après, vous n'avez pas besoin d'attendre cette box pour faire de l'IA locale. La DGX Spark existe déjà, un Mac avec assez de mémoire unifiée encaisse de gros modèles aussi, sans oublier qu'il y'a carrément moyen de remplacer l'API d'OpenAI par votre propre Mac . Sans parler des PC AMD Strix Halo...

Non, le vrai plus de Microsoft ici, c'est le combo refroidissement passif et image Windows dev clé en main, taillé pour le futur "Windows agentique" qu'ils nous préparent, et grâce auquel les agents IA tourneront en permanence sur nos machines pour taffer à notre place.

Bref, rien de dingue, c'est certain mais ça peut clairement dépanner ceux qui veulent un PC IA local sans avoir à bricoler. J'ai hâte de connaître le prix en tout cas !

Source

VoxDrop 1.1 - Le moteur vocal d'Apple est devenu mon préféré

Par : Korben ✨
6 juin 2026 à 20:08

VoxDrop , ma petite app de dictée vocale qui tourne 100% en local sur Mac, passe en version 1.1. Et le gros morceau de cette release, c'est le grand ménage que j'ai fait dans les moteurs de reconnaissance vocale.

Le nouveau venu, c'est donc le moteur d'Apple intégré à macOS 26. Il ne pèse rien à télécharger (0 Mo car il est carrément intégré au système), il gère une tonne de langues et il transcrit quasi en temps réel. Perso, c'est devenu mon préféré et je dicte avec tous les jours depuis des jours ! Seul hic, attention, faudra macOS 26, donc si vous êtes encore sous Sequoia, celui-là vous passera sous le nez.

Du coup j'ai viré Voxtral et Qwen, dont le gain n'était pas dingue, et j'ai mis du lourd à la place : Canary 1B de NVIDIA (le grand frère de Parakeet) et Cohere Transcribe. Ces deux-là squattent le haut du classement des meilleurs modèles de reconnaissance vocale, côté précision donc vous êtes servis !

Le principe, lui, ne bouge pas, vous appuyez sur votre raccourci (⌥+Espace par défaut), vous parlez, et hop, le texte arrive directement là où se trouve votre curseur. Et maintenant, VoxDrop sait aussi transcrire vos fichiers audio ET vidéo par simple glisser-déposer, sur la fenêtre ou sur l'icône dans la barre de menu et identifie même les locuteurs (qui parle, et quand) dans vos enregistrements.

Maintenant, oui, je sais, c'est un outil uniquement macOS parce que j'exploite au maximum les capacités de l'OS d'Apple (CoreML, MLX...etc) pour vous proposer l'expérience la plus rapide qui soit en termes de Speech To Text. Je pourrais porter VoxDrop sous Linux et Windows mais je ne ferais pas mieux que d'autres outils comme Murmure ou Handy qui font très bien le job sur ces OS.

J'ai codé cet outil parce que j'étais frustré par les autres apps que je trouvais peu réactives et là je m'en sers tous les jours, notamment pour dicter mes emails, mes articles et discuter avec Claude Code. C'est instantané et ça me fait gagner un temps de dingue !

VoxDrop peut aussi reformuler ou traduire votre texte en local toujours via Apple Intelligence, en plus du modèle de traduction maison déjà embarqué depuis la version précédente (TranslateGemma). Et j'ai rajouté tous les petits trucs qui changent la vie, comme la suppression automatique des "euh" et autres hésitations pour avoir un texte propre, et j'ai mis aussi le fonctionnement capot fermé du MacBook quand vous bossez sur un écran externe ainsi qu'un dictionnaire de substitutions qui corrige les variantes de vos termes, et un démarrage plus rapide grâce au préchargement du moteur.

Encore une fois, la perf sur cet outil c'est mon obsession.

J'ai aussi corrigé pas mal de bricoles que vous m'aviez remontées, l'espace parasite en début de phrase, le support des AirPods, les raccourcis clavier qui déconnaient et plein de petits gains de stabilité.

Comme pour la version précédente , VoxDrop reste réservé à mes abonnés Patreon. Alors pourquoi pas sur l'App Store ou en open source ? Parce que les deux, c'est un job à plein temps, c'est gérer des clients et du SAV d'un côté, des pull requests et des contributeurs de l'autre. J'ai pas le temps, et franchement pas l'envie.

Je code des outils pour moi depuis l'époque de RockXP, depuis le début des années 2000 et j'en ai profité l'année dernière pour mettre au point un système de licence Patreon maison que j'implémente dans tous mes outils. Comme ça, je développe ce qui me plaît quand je veux pour moi, et ceux qui me soutiennent y ont aussi accès directement, sans pub, ni intermédiaire. C'est un genre de bonus pour mes Patreons quoi...

D'ailleurs, VoxDrop n'est pas mon seul joujou du genre, y'a aussi Evapor8 qui efface le watermark des images générées par Gemini, sous la même licence. Mais ça, je vous en reparle très vite !

Bref, si vous êtes déjà sur mon Patreon , la 1.1 vous attend. Et sinon, vous savez quoi faire. 🙏

Ps : Je mets à jour le site de VoxDrop prochainement, et je vais aussi modifier le nom de l'app car depuis que je l'ai sortie en 2025, y'a eu des copycats qui sont arrivés avec le même nom donc je vais changer ça rapidement pour leur couper l'herbe sous le pied.

❌
❌