OpenAI libère enfin ses modèles open-weight GPT-OSS - Comment les utiliser ?
OpenAI vient de lâcher dans la nature ses premiers modèles open-weight depuis GPT-2, et apparemment, c’est du lourd. Après 5 longues années à garder jalousement ses modèles bien au chaud derrière des API payantes, Sam Altman et sa bande balancent donc gpt-oss-120b et gpt-oss-20b, deux modèles que vous pouvez télécharger gratuitement sur Hugging Face et faire tourner chez vous.
Ils ont claqué des milliards de dollars en recherche pour créer ces modèles, et maintenant ils les offrent au monde entier sous licence Apache 2.0. C’est beau !
Pour ceux qui se demandent ce que ça change, un modèle open-weight c’est comme avoir accès au moteur d’une voiture avec le capot grand ouvert. Vous pouvez voir comment ça fonctionne, bidouiller les paramètres internes, et surtout, le faire tourner en local sans connexion internet. Greg Brockman, le cofondateur d’OpenAI, explique que c’est complémentaire à leurs services payants comme ChatGPT et l’avantage, c’est que vos données ne partent pas dans le cloud.
Les deux nouveaux modèles utilisent l’approche chain-of-thought qu’OpenAI a introduite avec son modèle o1 l’automne dernier. Cela veut dire que au lieu de balancer une réponse directe, l’IA passe par plusieurs étapes de raisonnement pour répondre à vos questions. Ces modèles text-only ne sont pas multimodaux (donc pas d’images ou de sons), mais ils peuvent naviguer sur le web, appeler d’autres modèles cloud pour certaines tâches, exécuter du code et même agir comme des agents IA autonomes.
Le plus petit des deux, gpt-oss-20b avec ses 21 milliards de paramètres (dont 3,6 milliards actifs), est suffisamment compact pour tourner sur une machine avec 16 Go de RAM. Le gros calibre, gpt-oss-120b avec ses 117 milliards de paramètres (5,1 milliards actifs), nécessite 80 Go de mémoire et tourne idéalement sur une seule GPU H100. Les deux supportent un contexte de 128 000 tokens, soit l’équivalent de 300-400 pages de roman que vous pouvez balancer d’un coup.
D’après les benchmarks, gpt-oss-120b atteint quasiment les performances d’OpenAI o4-mini sur les tâches de raisonnement, tandis que gpt-oss-20b s’approche d’o3-mini. Sur une RTX 5090, vous pouvez atteindre jusqu’à 256 tokens par seconde, ce qui est franchement impressionnant pour du local. Avec l’architecture Mixture-of-Experts (MoE) et la précision native MXFP4, ces modèles sont optimisés pour tourner efficacement même sur du matériel grand public.
Bon, passons aux choses sérieuses avec le tutoriel Ollama pour faire tourner tout ça chez vous.
Installation d’Ollama
D’abord, installez Ollama si ce n’est pas déjà fait. Sur macOS, ouvrez un terminal et tapez :
brew install ollama
Sur Linux, c’est encore plus simple :
curl -fsSL https://ollama.ai/install.sh | sh
Pour Windows, téléchargez directement l’installateur sur ollama.com et suivez les instructions.
Lancement du serveur Ollama
Une fois installé, démarrez le serveur Ollama :
ollama serve
Le serveur va se lancer sur le port 11434 par défaut. Laissez cette fenêtre de terminal ouverte.
Téléchargement et exécution des modèles gpt-oss
Dans un nouveau terminal, vous pouvez maintenant télécharger et lancer les modèles. Pour le modèle léger gpt-oss-20b (idéal si vous avez 16 Go de RAM minimum) :
ollama pull gpt-oss:20b
ollama run gpt-oss:20b
Pour le modèle plus costaud gpt-oss-120b (nécessite au moins 80 Go de RAM ou un bon GPU) :
ollama pull gpt-oss:120b
ollama run gpt-oss:120b
Configuration du niveau de raisonnement
Une fonctionnalité sympa de ces modèles, c’est que vous pouvez ajuster l’effort de raisonnement selon vos besoins. Dans Ollama, vous pouvez configurer ça avec :
ollama run gpt-oss:20b --reasoning low # Pour des réponses rapides
ollama run gpt-oss:20b --reasoning medium # Équilibré (par défaut)
ollama run gpt-oss:20b --reasoning high # Pour des analyses complexes
Utilisation avec Python
Si vous préférez intégrer ça dans vos scripts Python, installez le package officiel :
pip install ollama
Puis utilisez-le comme ceci :
import ollama
response = ollama.chat(model='gpt-oss:20b', messages=[
{
'role': 'user',
'content': 'Explique-moi la différence entre un modèle open-weight et open-source',
},
])
print(response['message']['content'])
Alternative avec Hugging Face CLI
Si vous voulez télécharger directement depuis Hugging Face pour plus de contrôle :
# Installation de Hugging Face CLI
pip install huggingface-hub
# Téléchargement de gpt-oss-20b
huggingface-cli download openai/gpt-oss-20b --include "original/*" --local-dir gpt-oss-20b/
# Téléchargement de gpt-oss-120b
huggingface-cli download openai/gpt-oss-120b --include "original/*" --local-dir gpt-oss-120b/
Optimisations pour cartes NVIDIA RTX
Si vous avez une carte NVIDIA RTX, vous pouvez bénéficier d’optimisations spécifiques car Ollama détecte automatiquement votre GPU et applique les optimisations. Donc pour vérifier que votre GPU est bien détectée :
nvidia-smi # Pour voir votre GPU
ollama list # Pour voir les modèles disponibles
Quelques commandes utiles
Pour lister tous les modèles installés :
ollama list
Pour supprimer un modèle si vous manquez d’espace :
ollama rm gpt-oss:120b
Pour voir les logs et débugger si ça plante :
ollama logs
Le fait qu’OpenAI ait attendu mars pour annoncer ces modèles puis les ait retardés pour des tests de sécurité supplémentaires montre qu’ils prennent le sujet au sérieux. Eric Wallace, chercheur en sécurité chez OpenAI, explique qu’ils ont même fine-tuné les modèles en interne sur des scénarios à risque pour mesurer jusqu’où un “bad actor” pourrait les pousser. Résultat, les modèles n’ont pas atteint un niveau de risque élevé selon leur framework de préparation.
Pour finir, OpenAI s’est associé avec Azure, vLLM, llama.cpp, LM Studio, AWS, Fireworks, Together AI et plein d’autres plateformes pour rendre ces modèles accessibles partout. Microsoft propose même AI Foundry Local sur Windows où vous pouvez juste taper foundry model run gpt-oss-20b
dans un terminal pour commencer.
Voilà, vous avez tout ce qu’il faut pour jouer avec les nouveaux jouets d’OpenAI. C’est quand même fou de voir OpenAI revenir à ses racines open source après toutes ces années à s’enfermer. Avec la licence Apache 2.0, vous pouvez utiliser ces modèles commercialement, les redistribuer, et les intégrer dans vos propres projets.
Pour plus d’infos, consultez le dépôt GitHub officiel ou la page Ollama dédiée. Allez-y, téléchargez, testez, et surtout, amusez-vous bien avec ces nouveaux modèles. Le futur de l’IA locale commence maintenant, et il est entre vos mains.