Vue lecture

Il y a de nouveaux articles disponibles, cliquez pour rafraîchir la page.

Surface RTX Spark Dev Box - L'IA locale signée NVIDIA

Microsoft vient d'annoncer lors de son événement Build 2026 l'arrivée de sa Surface RTX Spark Dev Box, un petit boîtier qui se pose sur le bureau et qui fait tourner des modèles IA de 120 milliards de paramètres en local, sans rien envoyer dans le cloud.

Et bien sûr derrière le badge Surface, c'est NVIDIA qui se tape tout le boulot.

Dans cette boîte noire, vous avez donc la puce NVIDIA RTX Spark, qui rassemble un GPU Blackwell et un processeur Grace pour sortir environ 1 pétaflop de puissance IA et 128 Go de mémoire unifiée.

De quoi donc faire tourner un gros modèle avec une fenêtre de contexte d'un million de tokens, ou carrément affiner (fine-tuner) un modèle sans louer des GPU dans le cloud. Le tout dans un châssis en aluminium pensé pour servir de dissipateur, donc refroidi passivement. Et un malheur n'arrivant jamais seul (je plaisante ^^), Windows 11 Pro arrive préconfiguré dessus pour les devs, avec tous les outils qui vont bien déjà installés.

D'après le site de Microsoft, ce petit joujou sera donc dispo fin 2026, aux États-Unis d'abord.

Détails du châssis

Maintenant, le truc à bien capter, c'est que cette puce RTX Spark, c'est exactement la même famille que la DGX Spark , le mini-PC que NVIDIA vend depuis octobre dernier. Même architecture Grace Blackwell, même pétaflop, mêmes 128 Go unifiés.

Eh oui, Microsoft n'a pas conçu de puce maison pour cette box (ses puces Maia, c'est pour ses datacenters), mais a juste pris la plateforme d'NVIDIA et l'a habillée en Surface avec une image Windows maison. Ce qui n'est pas grave, hein, mais autant le savoir avant de croire à une révolution Microsoft.

Côté tarif, pas de chiffre officiel encore mais les estimations tournent autour de 3500 dollars. Pour vous donner une idée, la DGX Spark d'NVIDIA, sa cousine sous Linux, est passée de 3999 à 4699 dollars récemment, la faute à la flambée des prix de la mémoire. Donc, ce ne sera pas donné, mais vous vous en fichez parce que vous êtes probablement pété de thunes ^^.

Cela dit, même si c'est cher, l'idée de faire tourner un modèle costaud entièrement chez soi, ça reste sacrément séduisant. Vos données ne sortent jamais de la machine, y'a zéro facture d'API qui gonfle à chaque requête, et vous pouvez bidouiller un fine-tuning maison tranquillement. C'est une tendance qu'on voit monter depuis un petit moment maintenant avec par exemple des gens qui glissent un GPU de datacenter dans leur PC gaming juste pour s'affranchir du cloud ^^.

Après, vous n'avez pas besoin d'attendre cette box pour faire de l'IA locale. La DGX Spark existe déjà, un Mac avec assez de mémoire unifiée encaisse de gros modèles aussi, sans oublier qu'il y'a carrément moyen de remplacer l'API d'OpenAI par votre propre Mac . Sans parler des PC AMD Strix Halo...

Non, le vrai plus de Microsoft ici, c'est le combo refroidissement passif et image Windows dev clé en main, taillé pour le futur "Windows agentique" qu'ils nous préparent, et grâce auquel les agents IA tourneront en permanence sur nos machines pour taffer à notre place.

Bref, rien de dingue, c'est certain mais ça peut clairement dépanner ceux qui veulent un PC IA local sans avoir à bricoler. J'ai hâte de connaître le prix en tout cas !

Source

VoxDrop 1.1 - Le moteur vocal d'Apple est devenu mon préféré

VoxDrop , ma petite app de dictée vocale qui tourne 100% en local sur Mac, passe en version 1.1. Et le gros morceau de cette release, c'est le grand ménage que j'ai fait dans les moteurs de reconnaissance vocale.

Le nouveau venu, c'est donc le moteur d'Apple intégré à macOS 26. Il ne pèse rien à télécharger (0 Mo car il est carrément intégré au système), il gère une tonne de langues et il transcrit quasi en temps réel. Perso, c'est devenu mon préféré et je dicte avec tous les jours depuis des jours ! Seul hic, attention, faudra macOS 26, donc si vous êtes encore sous Sequoia, celui-là vous passera sous le nez.

Du coup j'ai viré Voxtral et Qwen, dont le gain n'était pas dingue, et j'ai mis du lourd à la place : Canary 1B de NVIDIA (le grand frère de Parakeet) et Cohere Transcribe. Ces deux-là squattent le haut du classement des meilleurs modèles de reconnaissance vocale, côté précision donc vous êtes servis !

Le principe, lui, ne bouge pas, vous appuyez sur votre raccourci (⌥+Espace par défaut), vous parlez, et hop, le texte arrive directement là où se trouve votre curseur. Et maintenant, VoxDrop sait aussi transcrire vos fichiers audio ET vidéo par simple glisser-déposer, sur la fenêtre ou sur l'icône dans la barre de menu et identifie même les locuteurs (qui parle, et quand) dans vos enregistrements.

Maintenant, oui, je sais, c'est un outil uniquement macOS parce que j'exploite au maximum les capacités de l'OS d'Apple (CoreML, MLX...etc) pour vous proposer l'expérience la plus rapide qui soit en termes de Speech To Text. Je pourrais porter VoxDrop sous Linux et Windows mais je ne ferais pas mieux que d'autres outils comme Murmure ou Handy qui font très bien le job sur ces OS.

J'ai codé cet outil parce que j'étais frustré par les autres apps que je trouvais peu réactives et là je m'en sers tous les jours, notamment pour dicter mes emails, mes articles et discuter avec Claude Code. C'est instantané et ça me fait gagner un temps de dingue !

VoxDrop peut aussi reformuler ou traduire votre texte en local toujours via Apple Intelligence, en plus du modèle de traduction maison déjà embarqué depuis la version précédente (TranslateGemma). Et j'ai rajouté tous les petits trucs qui changent la vie, comme la suppression automatique des "euh" et autres hésitations pour avoir un texte propre, et j'ai mis aussi le fonctionnement capot fermé du MacBook quand vous bossez sur un écran externe ainsi qu'un dictionnaire de substitutions qui corrige les variantes de vos termes, et un démarrage plus rapide grâce au préchargement du moteur.

Encore une fois, la perf sur cet outil c'est mon obsession.

J'ai aussi corrigé pas mal de bricoles que vous m'aviez remontées, l'espace parasite en début de phrase, le support des AirPods, les raccourcis clavier qui déconnaient et plein de petits gains de stabilité.

Comme pour la version précédente , VoxDrop reste réservé à mes abonnés Patreon. Alors pourquoi pas sur l'App Store ou en open source ? Parce que les deux, c'est un job à plein temps, c'est gérer des clients et du SAV d'un côté, des pull requests et des contributeurs de l'autre. J'ai pas le temps, et franchement pas l'envie.

Je code des outils pour moi depuis l'époque de RockXP, depuis le début des années 2000 et j'en ai profité l'année dernière pour mettre au point un système de licence Patreon maison que j'implémente dans tous mes outils. Comme ça, je développe ce qui me plaît quand je veux pour moi, et ceux qui me soutiennent y ont aussi accès directement, sans pub, ni intermédiaire. C'est un genre de bonus pour mes Patreons quoi...

D'ailleurs, VoxDrop n'est pas mon seul joujou du genre, y'a aussi Evapor8 qui efface le watermark des images générées par Gemini, sous la même licence. Mais ça, je vous en reparle très vite !

Bref, si vous êtes déjà sur mon Patreon , la 1.1 vous attend. Et sinon, vous savez quoi faire. 🙏

Ps : Je mets à jour le site de VoxDrop prochainement, et je vais aussi modifier le nom de l'app car depuis que je l'ai sortie en 2025, y'a eu des copycats qui sont arrivés avec le même nom donc je vais changer ça rapidement pour leur couper l'herbe sous le pied.

Heretic - Virer la censure d'une IA en une commande

Y'a des entreprises qui claquent des millions pour bien aligner leurs modèles d'IA afin qu'ils refusent toutes les questions sensibles qui font flipper nos amis puritains d'outre-Atlantique et y'a Heretic , un outil signé Philipp Emanuel Weidmann, qui balaye toute censure sur n'importe quel modèle en moins de 30 minutes avec une simple carte graphique de gamer.

Je vous explique... Vous devez avoir Python et une version récente de PyTorch sur votre machine, puis vous tapez pip install heretic-llm, puis heretic Qwen/Qwen3-4B-Instruct-2507 avec le nom du modèle que vous voulez décensurer.

Et l'outil fait alors sa vie et 20 à 30 minutes plus tard, vous récupérez une version du modèle qui a lâché prise sur l'essentiel de ses refus. Pas de dataset à préparer et surtout pas besoin de comprendre les entrailles d'un transformer, avec ce truc !

Dans un modèle aligné, le réflexe de refuser (le fameux "désolé, je ne peux pas vous aider avec ça") correspond souvent à une direction précise dans ses calculs internes. Les chercheurs appellent ça la "direction de refus". Et l'idée de l'abliteration, c'est de repérer cette direction et de la gommer des poids du modèle. En gros, on coupe le câble qui déclenche le "non", en touchant le moins possible au reste.

D'autres outils d'abliteration existaient déjà , mais leur réglage restait largement manuel et il y a aussi des gens comme mlabonne ou huihui-ai qui publient des modèles décensurés en ajustant les paramètres à la main, modèle par modèle, avec des résultats souvent inégaux. Mais Heretic, lui, automatise complètement le réglage. Pour cela, il s'appuie sur Optuna, un framework d'optimisation qui teste des dizaines de configurations et garde les meilleures tout seul. Et son seul objectif c'est de virer un max de refus tout en abîmant le moins possible le modèle d'origine.

Et de ce que je comprends, ça marche super bien ! Sur Gemma-3-12B, le modèle de Google de base refuse 97 fois sur 100 les prompts sensibles du benchmark maison. Mais après un petit passage dans Heretic, il tombe à 3 refus sur 100, soit le même niveau que les meilleures "nettoyages" manuels.

Et surtout, Heretic affiche une divergence de 0,16 là où les versions faites main grimpent à 0,45 voire 1,04 (C'est une mesure de l'écart de comportement sur les questions normales... plus c'est bas, mieux c'est).

Cela veut donc dire qu'il abîme beaucoup moins le modèle au passage.

Maintenant, tous les modèles n'y passent pas, car un gros calibre demande bien plus de VRAM et cela peut grimper à plusieurs heures. De plus, une étude comparative récente montre que le raisonnement mathématique est ce qui souffre le plus de ce genre d'abliteration, quel que soit l'outil utilisé.

Et surtout, y'a déjà des chercheurs qui bossent sur des défenses pour rendre les modèles résistants à ce genre d'attaque. Donc on verra bien, mais tant que c'est possible autant en profiter car des modèles sans bridage, ça permet notamment à des chercheurs d'étudier leurs propres failles, ou pour des usages du quotidien, de faire passer des demandes banales qui seraient bloquées (genre texte créatif, reverse engineering ou demande de conseils médicaux, ce genre de choses...)

Voilà, si vous bidouillez du LLM en local , allez voir ce projet car ça peut vous "ouvrir" quelques portes ^^.

Rocky - Le pote alien de Projet Dernière Chance débarque sur Raspberry Pi

J'sais pas si vous avez vu le film ou lu le livre mais Rocky, c'est l'araignée de roche extraterrestre de Projet Dernière Chance (Project Hail Mary) qui communique en chantant. Et Lahiru Maramba, un dev Firebase en poste chez Google, vient de le recréer en vrai avec un Raspberry Pi Zero 2W et un LLM local. Et voilà comme avoir un vrai pote Eridien posé sur votre bureau, qui vous répond en accords polyphoniques au lieu de parler.

L'architecture c'est ce que son concepteur appelle du "Voice Box & Brain". Le Pi Zero 2W tout seul est bien trop faiblard pour faire tourner un modèle de langage, du coup le Pi gère juste le hardware (micro, écran LCD, LED RGB, synthèse des accords) et balance l'audio brut à un Mac qui fait le gros du calcul. Le Mac transcrit ce que vous racontez avec mlx-whisper (un modèle Whisper-Tiny optimisé Apple Silicon), passe le texte à LM Studio qui fait tourner un Gemma 4 quantifié en local, et renvoie la réponse au Pi qui la joue en musique. Latence totale annoncée sur le repo, environ 2 secondes, soit, selon son propre benchmark, le même temps que via l'API Gemini dans le cloud, sauf que là, tout en local !

Le langage Eridien, lui, est fidèle au bouquin d'Andy Weir puisque chaque réponse est synthétisée en accords. Certains mots sont mappés sur des accords émotionnels précis, par exemple "amaze" sort en Mi majeur bien lumineux. Et pour les mots inconnus, ils sont hashés mathématiquement vers une signature de 3 fréquences, déterministe et permanente. Autrement dit, le même mot bizarre produira toujours exactement le même accord, comme un vrai vocabulaire qui se construit. C'est ce genre de petit détail qui fait la diff...

Côté matériel, il faut un Raspberry Pi Zero 2W et un PiSugar Whisplay HAT, un module tout-en-un qui apporte l'écran LCD, le bouton, la LED RGB et l'audio. De son côté, le repo propose 2 chemins d'install : la méthode "It Just Works" avec les drivers système précompilés (apt-get et c'est parti), ou la méthode isolée avec uv pour ceux qui veulent un environnement propre. Côté Mac, vous lancez LM Studio avec le modèle 4-bit quantifié sur le port 1234 et Y'a même un mode cloud avec une clé API Gemini si vous n'avez pas de Mac sous la main, ainsi qu'une fonctionnalité expérimentale planquée avec un générateur de sons façon R2-D2.

Pour la petite histoire, le film Projet Dernière Chance réalisé par Phil Lord et Christopher Miller est sorti en mars, avec Ryan Gosling en Ryland Grace et pour donner une voix à Rocky, les sound designers d'Hollywood ont tout simplement bossé avec un ocarina pour les aigus, une jarre pour les graves, et des chants de baleine, après avoir consulté Andy Weir sur l'anatomie du bestiau.

Je l'ai vu, et franchement, j'ai bien aimé. Je suis bien rentré dedans, même si j'aurais préféré que ce soit un peu plus "hard science" et un peu plus bidouille DIY comme l'était "Seul Sur Mars"... mais bon, il en faut pour tous les goûts.

Après si l'idée d'un compagnon IA DIY vous branche mais que vous voulez un truc plus généraliste et pas un Eridien qui chante, jetez un œil à Adeus , l'assistant IA personnel open source que j'avais couvert.

Quoiqu'il en soit, voici la vidéo complète où Lahiru montre tout le process, du câblage à Rocky qui prend vie :

Bref, c'est gratuit, c'est sous licence MIT, et le repo est juste ici .

Amusez-vous bien à construire votre petit pote Eridien !

TinyStories sur Game Boy Color - Le LLM le plus lent du monde

La bidouilleuse Maddie Dreese a réussi un sacré exploit les amis ! Elle a fait tourner un vrai modèle IA sur une Game Boy Color tout ce qu'il y a de plus basique.. Pas besoin de PC ni d'appels à un service tiers en ligne, mais simplement avec un peu de code qu'elle a mis sur une cartouche.

Le modèle qu'elle utilise s'appelle TinyStories-260K , et c'est un mini-LLM signé Andrej Karpathy (l'ex-Tesla et OpenAI), conçu à l'origine pour générer des petites histoires pour gamins.

Maddie n'a pas créé un modèle from scratch, mais elle a écrit le moteur (le transformer) qui fait tourner un modèle existant (TinyStories) sur la Game Boy. Le projet est sur GitHub et si vous voulez vous lancer, il vous faudra une Game Boy Color, un EZ Flash Junior (lien affilié) et une microSD pour flasher la ROM.

Côté bidouille, c'est assez velu. Je vous rappelle que le processeur de la Game Boy date de 1998 et ne sait pas faire de calculs avec des virgules. C'est pourquoi Maddie a dû reconvertir tout le modèle en nombres entiers pour qu'il puisse tourner. Et comme la mémoire de la console est ridicule, le contexte de la conversation est stocké directement dans la cartouche durant la génération.

Pour vous donner une idée des proportions, TinyStories-260K, c'est 260 000 paramètres. ChatGPT, lui, en a plusieurs centaines de milliards. Et comme le contexte est plafonné à 16 mots maximum, vous pouvez oublier les longues conversations. Bref, on est à des années-lumière de ce que votre PC pourrait faire tourner .

Et puis c'est lent. Genre vraiment trèèèès lent. Sans parler ce qui est produit comme texte en sortie, qui est souvent du charabia parce qu'à force de compresser la précision du modèle pour le faire rentrer dans la cartouche, il finit par perdre les pédales. Mais ça marche, et c'est tout ce qui compte !

Faut dire que pour une console qui faisait tourner Pokémon Or en 1999, c'est miraculeux ! Maddie de son côté, explique avoir pas mal utilisé Codex pour pondre le code, et le résultat est plutôt chouette.

Voilà, la Game Boy n'a jamais eu vocation à devenir un PC, à part peut-être avec le WorkBoy , le PDA fantôme dont je vous parlais y'a pas longtemps mais là, avec ce projet, elle s'en rapproche encore un peu plus...

❌