Vue lecture

Il y a de nouveaux articles disponibles, cliquez pour rafraîchir la page.

OpenAI libère enfin ses modèles open-weight GPT-OSS - Comment les utiliser ?

OpenAI vient de lâcher dans la nature ses premiers modèles open-weight depuis GPT-2, et apparemment, c’est du lourd. Après 5 longues années à garder jalousement ses modèles bien au chaud derrière des API payantes, Sam Altman et sa bande balancent donc gpt-oss-120b et gpt-oss-20b, deux modèles que vous pouvez télécharger gratuitement sur Hugging Face et faire tourner chez vous.

Ils ont claqué des milliards de dollars en recherche pour créer ces modèles, et maintenant ils les offrent au monde entier sous licence Apache 2.0. C’est beau !

Pour ceux qui se demandent ce que ça change, un modèle open-weight c’est comme avoir accès au moteur d’une voiture avec le capot grand ouvert. Vous pouvez voir comment ça fonctionne, bidouiller les paramètres internes, et surtout, le faire tourner en local sans connexion internet. Greg Brockman, le cofondateur d’OpenAI, explique que c’est complémentaire à leurs services payants comme ChatGPT et l’avantage, c’est que vos données ne partent pas dans le cloud.

Les deux nouveaux modèles utilisent l’approche chain-of-thought qu’OpenAI a introduite avec son modèle o1 l’automne dernier. Cela veut dire que au lieu de balancer une réponse directe, l’IA passe par plusieurs étapes de raisonnement pour répondre à vos questions. Ces modèles text-only ne sont pas multimodaux (donc pas d’images ou de sons), mais ils peuvent naviguer sur le web, appeler d’autres modèles cloud pour certaines tâches, exécuter du code et même agir comme des agents IA autonomes.

Le plus petit des deux, gpt-oss-20b avec ses 21 milliards de paramètres (dont 3,6 milliards actifs), est suffisamment compact pour tourner sur une machine avec 16 Go de RAM. Le gros calibre, gpt-oss-120b avec ses 117 milliards de paramètres (5,1 milliards actifs), nécessite 80 Go de mémoire et tourne idéalement sur une seule GPU H100. Les deux supportent un contexte de 128 000 tokens, soit l’équivalent de 300-400 pages de roman que vous pouvez balancer d’un coup.

D’après les benchmarks, gpt-oss-120b atteint quasiment les performances d’OpenAI o4-mini sur les tâches de raisonnement, tandis que gpt-oss-20b s’approche d’o3-mini. Sur une RTX 5090, vous pouvez atteindre jusqu’à 256 tokens par seconde, ce qui est franchement impressionnant pour du local. Avec l’architecture Mixture-of-Experts (MoE) et la précision native MXFP4, ces modèles sont optimisés pour tourner efficacement même sur du matériel grand public.

Bon, passons aux choses sérieuses avec le tutoriel Ollama pour faire tourner tout ça chez vous.

Installation d’Ollama

D’abord, installez Ollama si ce n’est pas déjà fait. Sur macOS, ouvrez un terminal et tapez :

brew install ollama

Sur Linux, c’est encore plus simple :

curl -fsSL https://ollama.ai/install.sh | sh

Pour Windows, téléchargez directement l’installateur sur ollama.com et suivez les instructions.

Lancement du serveur Ollama

Une fois installé, démarrez le serveur Ollama :

ollama serve

Le serveur va se lancer sur le port 11434 par défaut. Laissez cette fenêtre de terminal ouverte.

Téléchargement et exécution des modèles gpt-oss

Dans un nouveau terminal, vous pouvez maintenant télécharger et lancer les modèles. Pour le modèle léger gpt-oss-20b (idéal si vous avez 16 Go de RAM minimum) :

ollama pull gpt-oss:20b
ollama run gpt-oss:20b

Pour le modèle plus costaud gpt-oss-120b (nécessite au moins 80 Go de RAM ou un bon GPU) :

ollama pull gpt-oss:120b
ollama run gpt-oss:120b

Configuration du niveau de raisonnement

Une fonctionnalité sympa de ces modèles, c’est que vous pouvez ajuster l’effort de raisonnement selon vos besoins. Dans Ollama, vous pouvez configurer ça avec :

ollama run gpt-oss:20b --reasoning low # Pour des réponses rapides
ollama run gpt-oss:20b --reasoning medium # Équilibré (par défaut)
ollama run gpt-oss:20b --reasoning high # Pour des analyses complexes

Utilisation avec Python

Si vous préférez intégrer ça dans vos scripts Python, installez le package officiel :

pip install ollama

Puis utilisez-le comme ceci :

import ollama

response = ollama.chat(model='gpt-oss:20b', messages=[
{
'role': 'user',
'content': 'Explique-moi la différence entre un modèle open-weight et open-source',
},
])
print(response['message']['content'])

Alternative avec Hugging Face CLI

Si vous voulez télécharger directement depuis Hugging Face pour plus de contrôle :

# Installation de Hugging Face CLI
pip install huggingface-hub

# Téléchargement de gpt-oss-20b
huggingface-cli download openai/gpt-oss-20b --include "original/*" --local-dir gpt-oss-20b/

# Téléchargement de gpt-oss-120b
huggingface-cli download openai/gpt-oss-120b --include "original/*" --local-dir gpt-oss-120b/

Optimisations pour cartes NVIDIA RTX

Si vous avez une carte NVIDIA RTX, vous pouvez bénéficier d’optimisations spécifiques car Ollama détecte automatiquement votre GPU et applique les optimisations. Donc pour vérifier que votre GPU est bien détectée :

nvidia-smi # Pour voir votre GPU
ollama list # Pour voir les modèles disponibles

Quelques commandes utiles

Pour lister tous les modèles installés :

ollama list

Pour supprimer un modèle si vous manquez d’espace :

ollama rm gpt-oss:120b

Pour voir les logs et débugger si ça plante :

ollama logs

Le fait qu’OpenAI ait attendu mars pour annoncer ces modèles puis les ait retardés pour des tests de sécurité supplémentaires montre qu’ils prennent le sujet au sérieux. Eric Wallace, chercheur en sécurité chez OpenAI, explique qu’ils ont même fine-tuné les modèles en interne sur des scénarios à risque pour mesurer jusqu’où un “bad actor” pourrait les pousser. Résultat, les modèles n’ont pas atteint un niveau de risque élevé selon leur framework de préparation.

Pour finir, OpenAI s’est associé avec Azure, vLLM, llama.cpp, LM Studio, AWS, Fireworks, Together AI et plein d’autres plateformes pour rendre ces modèles accessibles partout. Microsoft propose même AI Foundry Local sur Windows où vous pouvez juste taper foundry model run gpt-oss-20b dans un terminal pour commencer.

Voilà, vous avez tout ce qu’il faut pour jouer avec les nouveaux jouets d’OpenAI. C’est quand même fou de voir OpenAI revenir à ses racines open source après toutes ces années à s’enfermer. Avec la licence Apache 2.0, vous pouvez utiliser ces modèles commercialement, les redistribuer, et les intégrer dans vos propres projets.

Pour plus d’infos, consultez le dépôt GitHub officiel ou la page Ollama dédiée. Allez-y, téléchargez, testez, et surtout, amusez-vous bien avec ces nouveaux modèles. Le futur de l’IA locale commence maintenant, et il est entre vos mains.

HRM - L'IA qui ridiculise ChatGPT avec seulement 27 millions de paramètres

Ce lundi matin, pendant que vous buvez votre café tiède en écoutant vos collègues évoquer leur future retraite imaginaire, sachez que des chercheurs singapouriens vient encore de repousser les frontières de l’IA avec HRM, un modèle qui résout des Sudoku impossibles sans même transpirer. Et il ne pèse que 27 Mo.

Je vous explique… La startup Sapient Intelligence vient de sortir le Hierarchical Reasoning Model (HRM), et c’est un véritable game-changer car avec seulement 27 millions de paramètres (c’est 6500 fois moins que GPT-3) cette petite bête arrive à battre les géants de l’IA sur des tâches de raisonnement complexe. Et le plus fort c’est qu’elle n’a besoin que de 1000 exemples pour apprendre, là où les autres en demandent des millions.

Le secret de cette prouesse, c’est une architecture directement inspirée de notre cerveau. Au lieu de faire comme les LLMs classiques qui génèrent du texte token par token en mode “je réfléchis à voix haute”, HRM fonctionne avec deux modules qui bossent ensemble : un module H (High-level) qui fait la planification stratégique lente, et un module L (Low-level) pour les calculs rapides et détaillés. En gros c’est un architecte qui dessine les plans et un maçon qui construit.

Et alors ça donne quoi dans la réalité ? Et bien sur des Sudoku niveau “extreme” où GPT-4 et Claude se cassent les dents avec un score de 0%, HRM affiche tranquillement un taux de réussite quasi parfait. Sur le benchmark ARC-AGI qui teste le raisonnement abstrait, il tape des scores de 40.3% contre 34.5% pour o3-mini d’OpenAI et 21.2% pour Claude 3.7 Sonnet. Pas mal donc pour un modèle qui tient sur une clé USB.

Mais le vrai kiff, c’est la vitesse d’exécution. Guan Wang, le CEO de Sapient Intelligence, parle d’un gain de performance de x100 par rapport aux approches chain-of-thought classiques. Pourquoi ? Et bien parce qu’au lieu de générer des pavés de texte pour expliquer chaque étape de raisonnement, HRM fait tout ça en interne, dans son “espace latent”. C’est ça la différence entre quelqu’un qui marmonne tout ce qu’il pense (le fou de la gare) et quelqu’un qui réfléchit dans sa tête avant de donner la réponse.

D’ailleurs, cette histoire de chain-of-thought, c’est un peu la “béquille” des LLMs actuels. Les chercheurs de Sapient ne mâchent pas leurs mots dans leur papier : en disant que “C’est une béquille, pas une solution satisfaisante. Ça repose sur des décompositions fragiles définies par l’humain où une seule erreur peut faire dérailler tout le processus de raisonnement.” Ouille…

Pour l’entraînement, c’est du grand art aussi. Il faut seulement 2 heures de GPU pour apprendre à résoudre des Sudoku niveau pro, et entre 50 et 200 heures pour le benchmark ARC-AGI. Comparez ça aux milliers d’heures nécessaires pour entraîner GPT-4, et vous comprenez pourquoi les entreprises commencent à s’intéresser sérieusement à cette approche.

L’équipe derrière ça sont des anciens de Google DeepMind, DeepSeek, Anthropic et xAI, accompagnés d’académiques de grandes universités. Ils ont même mis le code en open source sur GitHub, donc si vous voulez jouer avec, c’est cadeau.

Pour les applications concrètes, Wang voit grand : santé pour les diagnostics complexes, prévisions climatiques (ils annoncent 97% de précision sur les prévisions saisonnières), et robotique comme “cerveau décisionnel” embarqué. Parce que oui, avec sa taille réduite et sa faible consommation, HRM peut tourner sur des appareils edge sans problème.

Alors bien sûr, ne jetez pas ChatGPT ou Claude à la poubelle tout de suite car pour les tâches créatives et linguistiques, les LLMs restent imbattables. Mais pour tout ce qui demande du raisonnement pur et dur, c’est à dire optimisation logistique, diagnostic de systèmes complexes, planification…etc, HRM pourrait bien devenir le nouveau standard.

Ainsi, depuis des années, la course à l’IA c’était “qui aura le plus gros modèle” et là, Sapient nous montre qu’avec une architecture intelligente inspirée du cerveau, on peut faire mieux avec infiniment moins. Si vous suivez l’actualité des nouveaux modèles IA comme Llama 4, vous savez que l’industrie commence à explorer des architectures alternatives comme par exemple les Mixture of Experts pour optimiser les performances, donc peut-être que Meta ou d’autres intégreront HRM dans le futur à leurs nouveaux modèles.

Voilà, en attendant la prochaine révolution hebdomadaire de l’IA (Perso, je me régale !! Pas vous ??), vous pouvez déjà aller tester le code sur leur GitHub. Et qui sait, peut-être que dans quelques années, on se souviendra de ce moment comme du jour où l’IA a commencé à vraiment penser comme nous. Enfin, en mieux et en plus vite.

Source

❌