Korben
NVIDIA CUDA 13.3 fait passer Python en stable et amène un nouveau modèle de programmation pour C++
28 mai 2026 à 14:34

NVIDIA CUDA 13.3 fait passer Python en stable et amène un nouveau modèle de programmation pour C++

Par : Vincent Lautier

28 mai 2026 à 14:34

Avec la sortie de CUDA 13.3, NVIDIA renforce son écosystème GPU sur deux fronts importants. La version Python passe officiellement en 1.0 (donc considérée comme stable et utilisable en production), et CUDA Tile arrive nativement pour les développeurs C++.

Petit rappel pour les non-initiés : CUDA, c'est l'outil que tout le monde utilise pour faire tourner du calcul sur les cartes graphiques NVIDIA, principalement pour l'IA et le calcul scientifique.

Historiquement, c'est du C/C++ à 99%. NVIDIA pousse depuis quelques années pour rendre tout ça accessible en Python, et ce passage en 1.0 marque une étape importante. À partir de maintenant, l'API ne changera plus brutalement entre les versions mineures.

En pratique, les développeurs peuvent désormais compter dessus pour leurs projets long terme. La version 1.0 ajoute aussi le support des "green contexts" (un système pour réserver une partie de la GPU à des tâches isolées) et du checkpointing CUDA (la possibilité de sauvegarder l'état d'une exécution GPU pour la reprendre plus tard).

L'autre gros morceau, c'est CUDA Tile pour C++. Le modèle de programmation "tile" consiste à découper un calcul en blocs uniformes traités en parallèle, plutôt que de gérer chaque fil d'exécution individuellement (la GPU en fait tourner des milliers en même temps).

Il était déjà disponible en Python via des bibliothèques comme Triton. Il arrive maintenant en C++. L'idée est de monter d'un cran en abstraction : vous décrivez ce que vous voulez faire au niveau du bloc, et le compilateur s'occupe de mapper ça sur les threads. Le support couvre les GPU Hopper (l'architecture haut de gamme de NVIDIA pour les datacenters IA) et toutes les architectures plus récentes.

En bonus, NVIDIA introduit CompileIQ, un framework d'auto-tuning du compilateur qui promet jusqu'à 15% de gain sur des opérations critiques comme la multiplication de matrices ou les mécanismes d'attention utilisés dans les modèles d'IA. Le support du C++23 dans les compilateurs NVCC et NVRTC est aussi de la partie.

Pour les développeurs IA, c'est une nouvelle version importante. La programmation GPU est toujours un domaine très technique, mais NVIDIA réduit progressivement la barrière d'entrée, surtout côté Python. AMD a du boulot pour rattraper son retard avec ROCm, leur équivalent maison qui peine encore à convaincre la communauté.

Source : Phoronix

Korben
Lemonade - L'IA locale sur NPU AMD, GPU et Mac
18 mai 2026 à 13:37

Lemonade - L'IA locale sur NPU AMD, GPU et Mac

Korben

Par : Korben ✨

18 mai 2026 à 13:37

Vous n'avez pas de Mac Silicon, mais vous avez vu passer mon article de ce matin sur vLLM-MLX et son serveur d'IA local ? Hé bien bonne nouvelle, je suis tombé ce midi sur Lemonade SDK , un serveur d'IA local communautaire sponsorisé par AMD (et largement codé par leurs ingénieurs), qui joue dans la même cour, mais côté PC + Mac !

C'est la même logique qu'avec vLLM-MLX, vous installez le serveur (un paquet clé en main selon votre OS, pas de bidouille pip), et il expose un endpoint compatible API OpenAI sur http://localhost:13305/api/v1. Vos scripts tapent dessus au lieu d'envoyer vos prompts, et votre pognon, chez OpenAI.

Le démarrage tient en une ligne. Un lemonade run Gemma-4-E2B-it-GGUF lance un modèle, et un lemonade launch claude branche carrément Claude Code sur votre machine.

Sauf que là où vLLM-MLX s'appuie sur MLX pour les puces Apple, Lemonade vise les NPU Ryzen AI et les GPU Radeon. Et c'est tout l'intérêt du truc car depuis la 10.0 sortie en mars, le NPU XDNA2 des machines Ryzen AI récentes sert enfin à faire tourner des LLM sous Linux, et plus juste à décorer la fiche technique !

La 10.5 apporte également 2 nouveautés qui valent le coup. D'abord, le support macOS passe de bêta à officiel. Toutes les grosses fonctions sont validées sur Mac (le texte via llama.cpp et Metal, le reste via les autres moteurs embarqués) et ensuite, ça bascule sur ROCm 7.13 pour llama.cpp et la génération d'images.

J'ai pas de PC Ryzen AI sous la main pour tâter du fameux NPU, donc j'ai fait mes tests sur mon GPU Metal à moi. Notez qu'un lemonade list crache tout le catalogue, Qwen, Gemma, Llama, DeepSeek et compagnie.

Et ça dépote ! Un petit Qwen3-0.6B dans le chat intégré tourne à ~96 tokens par seconde avec mes 32 Go de RAM, c'est donc une réponse quasi instantanée. Après un modèle de 0,6 milliard de paramètres, c'est le poids plume du ring, donc comptez nettement moins sur un gros 8B, mais ça tourne nickel.

Du coup, sur Mac, vLLM-MLX joue la carte du natif Apple via MLX, alors que l'intérêt de Lemonade c'est surtout le cross-plateforme et le NPU Ryzen AI. Et comparé à Ollama , vous gagnez ce NPU mais aussi les fonctions audio (synthèse vocale, transcription) + un gestionnaire graphique de modèles pour piocher vos modèles. Et tout ça est sous licence Apache 2.0.

Bref, que vous soyez team Mac ou team Ryzen, c'est zéro ligne de facture API en fin de mois et surtout vos données qui restent chez vous !

Source : Phoronix

Korben
Pour activer ce nouveau pilote graphique libre, il faut littéralement réclamer un pilote cassé
14 mai 2026 à 17:01

Pour activer ce nouveau pilote graphique libre, il faut littéralement réclamer un pilote cassé

Korben

Par : Vincent Lautier

14 mai 2026 à 17:01

Je ne vous apprends rien, un GPU, c'est la puce qui calcule l'image que vous voyez à l'écran. Pour qu'elle fonctionne, il lui faut un pilote, le logiciel qui fait le lien entre le matériel et le système d'exploitation.

Sur les puces Arm Mali, qu'on retrouve dans des tas de smartphones et de cartes type Raspberry Pi, Arm ne fournit pas de pilote libre. Du coup une bande de développeurs a monté Panfrost, un pilote libre reconstruit en grande partie par reverse-engineering, c'est-à-dire en observant le comportement du matériel pour deviner comment il marche.

Panfrost et son cousin PanVK, la version dédiée à Vulkan (l'interface graphique moderne pour les jeux et les applications 3D), viennent de prendre en charge le Mali G1 Pro. C'est le GPU le plus récent d'Arm, basé sur l'architecture maison baptisée "v14". Jusqu'ici, le haut du panier supporté s'arrêtait au Mali-G725 sorti en 2024. Le support arrivera officiellement avec Mesa 26.2, la prochaine grosse version de la bibliothèque graphique libre, attendue le trimestre prochain.

Pour comprendre pourquoi c'est un gros sujet, il faut savoir qui utilise Panfrost. Tous ceux qui font tourner Linux sur du matériel Arm, des cartes de bricolage aux ordinateurs portables ou aux téléphones reconvertis, en dépendent pour avoir une accélération graphique digne de ce nom.

Sans ces pilotes libres, ce matériel reste à moitié aveugle côté affichage. Que le projet suive d'aussi près les puces les plus récentes d'Arm, c'est donc tout sauf un détail.

Attention quand même, on est très loin d'un truc fini. Les tests sont encore limités, des morceaux peuvent manquer ou être carrément cassés. Et les développeurs ne s'en cachent pas : pour activer le pilote Vulkan sur ces nouvelles puces, il faut passer par une variable d'environnement nommée, je vous jure que c'est vrai, PAN_I_WANT_A_BROKEN_VULKAN_DRIVER=1. Soit "je veux un pilote Vulkan cassé" en français. Difficile d'être plus honnête.

Côté modèles, le G1 Pro est pris en charge mais ses grands frères, les G1-Premium et G1-Ultra, ne sont pas encore de la partie. Ça viendra sûrement, c'est souvent comme ça que le projet avance : une puce après l'autre, à mesure que le reverse-engineering progresse et que les développeurs comprennent les entrailles de chaque nouvelle architecture.

Source : Phoronix

Vue normale