Age of Empires II est aussi conscient que votre ChatGPT

Par : Korben ✨

7 juin 2026 à 15:01

Vous connaissez ce refrain qu'on entend partout dans la presse, comme quoi ChatGPT ou Claude "comprendrait vraiment" ce que vous racontez, qu'il aurait une "morale", une "intention" , voire bientôt une conscience ?

Bah Adrian de Wynter, chercheur principal chez Microsoft, vient d'y répondre de la plus belle des manières en prouvant que si c'est le cas, alors Age of Empires II a lui aussi des attributs très humains.

Et c'est on ne peut plus sérieux (enfin... presque).

En effet, dans son papier de recherche il explique qu'il s'est monté un petit réseau de neurones à l'intérieur du bon vieux AoE2, et nous explique tranquillement que n'importe quel système posé sur un "substrat" assez puissant (comprenez : le "moteur" sur lequel ça tourne, peu importe lequel) peut afficher ce genre de propriétés. Ça marche donc avec le jeu de Microsoft, mais aussi les LEGO, ou carrément l'agglomération de Boston.

Son raisonnement c'est que quand un fanboy IA (ou un employé d'Anthropic, loool) affirme qu'un LLM "a" une morale ou "comprend" le langage sans dire précisément comment il le mesure, il ne décrit pas vraiment la machine mais projette tout simplement ses attentes sur elle. Car les expériences ont beau rester les mêmes d'un substrat à l'autre, leur interprétation, elle, change selon ce qui les produit. Du coup, déclarer que ces attributs humains existent dans l'absolu, sans critère mesurable, mène soit à un raisonnement circulaire, soit à une conclusion qui ne dit rien de très probant.

Mais attention, je vous vois venir les Anti-IA Bro ! Il ne dit pas que les LLM sont nuls... Non, non, il dit juste qu'on les mesure mal.

À la place, de Wynter propose donc de travailler à partir d'une "hypothèse nulle", qui est un grand classique de la démarche scientifique consistant à ne plus partir du principe que l'IA pense, mais au contraire, partir de l'inverse. De se dire en fait qu'elle n'a rien d'unique, et c'est ensuite à l'expérience de prouver le contraire avec des mesures explicites. C'est d'après lui précisément ce qui manque à la tonne de papiers qui crient à l'"émergence" dès qu'un modèle fait un truc inattendu.

Et le bonhomme sait de quoi il parle puisque c'est déjà lui qui avait fait jouer GPT-4 à Doom en 2024, en s'inquiétant au passage de la facilité avec laquelle on pouvait lui faire tirer sur tout ce qui bouge. C'est aussi lui qui a épluché plus de 2000 publications sur les LLM pour montrer le manque de rigueur du domaine. Et en bonus de tout cela, il a démontré également que Age of Empires II était Turing-complet , donc capable en théorie de faire tourner n'importe quel calcul. Des gens "codaient" déjà dans le jeu depuis des lustres, mais en avoir une preuve formelle aujourd'hui, c'est cool !

Mais bon après derrière la vanne, y'a surtout un vrai sujet qui est que de prêter des intentions humaines à une IA, ça pousse surtout les gens à trop faire confiance à un chatbot, à lui confier des trucs intimes, parfois à s'y attacher pour de bon. Alors mettre un réseau de neurones dernier cri et une bonne vieille partie d'AoE2 sur le même plan, c'est sûr que c'est vexant pour l'ego de l'IA et de ses ingénieurs, mais carrément plus sain pour le nôtre !

Bref, la prochaine fois qu'on vous vend une IA "qui comprend" ou que vous penserez que seul ChatGPT vous comprend vraiment, repensez aux petits paysans qui coupent du bois dans Age of Empires qui sont tout aussi conscients que votre IA préférée.

vLLM-MLX - Pour remplacer l'API d'OpenAI par votre propre Mac

Korben

Par : Korben ✨

18 mai 2026 à 11:23

Si vous avez un Mac avec une puce Silicon et que vous en avez marre de raquer pour des tokens à chaque requête API à un LLM à la con, y'a un projet qui mérite, je trouve, le détour. Ça s'appelle vLLM-MLX , et c'est un serveur d'inférence local qui transforme votre Mac en machine à générer du texte, à analyser des images et vidéos, et même capable de gérer de l'audio... et tout ça sans que l'inférence ne passe par le cloud des zaméricains.

Pour installer le bouzin, ça se fait avec :

uv tool install vllm-mlx

Puis vous lancez suivi du nom d'un modèle et hop, vous obtenez un endpoint API compatible OpenAI qui tourne en local sur votre machine :

vllm-mlx serve %MODEL%

Au début je pensais que j'étais parti pour une séance de configuration qui aller durer des heures mais en fait non. Par exemple moi j'ai lancé ça :

vllm-mlx serve mlx-community/GLM-4.7-Flash-4bit

Vous pouvez aussi opter pour un modèle plus petit :

vllm-mlx serve mlx-community/Qwen2.5-Coder-3B-Instruct-4bit

Du coup, si vos scripts causent déjà avec l'API d'OpenAI, basculer sur ça en local rien qu'en changeant l'URL de base, c'est un jeu d'enfant !

Côté perfs, et là je reprends les benchmarks officiels du repo (M4 Max 128 Go, mono-requête), on tourne autour de 418 tok/s sur un petit Qwen3-0.6B en 8-bit. Ensuite, ça tombe à environ 206 tok/s sur du Llama-3.2-3B et 128 tok/s sur un gros Qwen3-30B-A3B.

Le débit grimpe aussi quand plusieurs requêtes tapent en même temps à la porte... Donc sur les petits modèles ça file vite, mais par contre, sur les gros, faudra pas s'attendre à la même vitesse, hein... Et un Qwen3-30B vous bouffera dans les 18 Go de RAM unifiée, donc sur un Mac à 8 ou 16 Go vous pouvez oublier les gros modèles (Mais qui n'a pas encore un Mac Studio 128 Go ?? hein ? Quiiii ?).

Et c'est pas juste un serveur de texte comme je vous le disais, puisque le projet gère les modèles de vision type Gemma 3, Qwen3-VL, Pixtral, pour analyser images et les vidéos, et côté audio y'a du TTS natif (avec Kokoro, Chatterbox et compagnie) + de la transcription Whisper qui monte jusqu'à 197x le temps réel avec whisper-tiny, ou 55x avec le modèle turbo.

Attention par contre, il vous faudra la version avec l'extra audio (espeak-ng et un modèle spaCy), car c'est pas inclus dans la commande de base. Mais une fois en place, y a de quoi se monter un vrai assistant vocal 100% local et causer synthèse vocale sans louer un GPU chez Azure ou AWS.

Même le endpoint /v1/messages est compatible Anthropic, ce qui permet de brancher Claude Code ou OpenCode directement sur votre serveur comme je vous l'expliquais ici . Suffit d'utiliser ces variables d'environnement et votre éditeur IA ira taper sur votre propre machine plutôt que sur des serveurs distants.

unset ANTHROPIC_API_KEY
export ANTHROPIC_BASE_URL="http://127.0.0.1:8000"
export ANTHROPIC_AUTH_TOKEN="dummy"
claude --model mlx-community/GLM-4.7-Flash-4bit

ou :

claude --model mlx-community/Qwen2.5-Coder-3B-Instruct-4bit

Avouez que c'est trop cool hein ? Vous pouvez trouver tous les modèles pour MLX ici sur HugginFace si vous cherchez un truc plus spécifique.

Y'a aussi un endpoint d'embeddings pour faire du RAG en local, de l'appel d'outils externe via MCP avec une douzaine de parsers et le support des modèles de raisonnement qui extraient proprement le processus de réflexion entre les balises <think> pour Qwen3 et DeepSeek-R1.

J'adore !

Côté bidouille si vous vous lancer, sachez qu'il y a 2 ou 3 flags vachement utiles à connaitre.

Par exemple, le --warm-prompts (couplé au continuous batching) précharge les préfixes populaires au démarrage et, dans le bon scénario, vous gagne entre 1,3 et 2,25x sur le temps de première réponse.

Sur les gros modèles MoE genre Qwen3-30B-A3B, le --moe-top-k réduit aussi le nombre d'experts activés pour gratter 7 à 16% de débit. Le hic, c'est que vous y perdez un poil de qualité.

Et pour les agents qui brassent des contextes énormes, le --ssd-cache-dir déverse le cache de préfixes sur SSD pour soulager la RAM, au prix d'un peu de latence quand ça tape sur le disque.

Bref, si vous cherchez une alternative à Ollama qui tape direct dans le GPU de votre Mac avec du batching et du multimodal, le tout avec une compatibilité API aux petits oignons, foncez les amis ! C'est open source (Apache 2.0), ça dépote et ça s'installe en deux commandes !

Et si vous êtes sur PC plutôt que sur Mac, j'ai écrit la suite sur Lemonade SDK , l'équivalent côté AMD qui tape dans le NPU Ryzen AI.

Merci à Christian pour la découverte !

Vue normale