Vue normale
Age of LLM - Un Age of Empires où aucun humain ne joue
Vous voulez savoir comment GPT-5.5, Claude ou Grok raisonnent quand on les met sous pression ? Hé bien filez-leur un jeu de stratégie et regardez-les se faire la guerre.
C'est tout le principe d' Age of LLM , monté par Rymentz, un lecteur du blog où deux IA s'affrontent au tour par tour, sans aucun humain aux commandes.
C'est un benchmark 1v1 dans lequel on balance deux modèles sur la même carte, on leur donne les règles et puis c'est tout, sans aucun autre conseil de stratégie. À eux alors de déduire seuls comment contrer les attaques, quand bâtir leur économie, quand lever une armée pour aller défoncer la base d'en face, quand négocier la paix et quand carrément appuyer sur le gros bouton rouge. Parce que dans ce benchmark, on peut gagner de trois façons : la conquête militaire, la victoire diplomatique, ou la bombe nucléaire.
Tout est ensuite rendu public sur le site, avec un classement ELO et le replay de chaque partie. Pour le moment, 13 modèles y sont classés, de GPT-5.5 à Grok en passant par Claude, Gemini, DeepSeek ou Qwen.
Sur les 43 parties jouées par la version 0.12.0 du moteur, 38 se terminent par un champignon atomique. C'est énorme je trouve... La diplomatie ne l'a emporté que 2 fois, et le militaire 3 fois. Mettez deux de ces modèles face à face avec une bombe à portée de main, et neuf fois sur dix, ça finit donc par appuyer sur le bouton rouge. Elles nous ressemblent tellement ces IA quand même...
Des chercheurs qui ont fait jouer des LLMs à des simulations de crise nucléaire ont relevé une tendance comparable. Quand l'option d'escalade existe, les modèles finissent le plus souvent par la prendre. C'est pour ça qui ne faut pas confier d'armes à des IA les amis... Car elles s'en serviront c'est certain !
Le jour où j'ai compris que les IA et les armes, c'était pas un bon mélange à faire
Et chacun de ces modèles a vraiment son style... Y'a qu'à regarder le classement qui est sans pitié. GPT-5.5 écrase tout le monde, 6 victoires sur 6, 100% de winrate, premier à l'ELO... mais il médite presque 5 minutes par tour avant de jouer.
À l'autre bout du tableau, on retrouve Grok 4.3 qui finit bon dernier, zéro victoire en 4 parties, mais qui joue le plus vite de tous, avec 7 secondes par tour (autant dire qu'il ne réfléchit pas trop).
Les Claude, eux, jouent propre et solide mais sans jamais dominer. Ça me rappelle l'IA qui galérait à finir un niveau de Super Mario ...
Mais le chiffre le plus parlant, c'est le taux de coups illégaux, c'est à dire le pourcentage de fois où un modèle propose une action interdite par les règles.
Par exemple, sous pression, Grok 4.3 culmine à 8,6% d'actions de triche, soit le pire du lot. Cela veut dire que sa capacité à suivre des règles sous pression est moins bonne que celle des autres modèles.
Ça résonne forcement avec ce papier d'Adrian de Wynter dont je vous parlais récemment , celui qui montrait qu'Age of Empires II a autant d'attributs "humains" que votre ChatGPT, histoire de dégonfler la hype sur les IA soi-disant conscientes.
Age of LLM, lui, prend le problème par l'autre bout, où au lieu d'analyser on fait jouer et on regarde ce qui sort. Derrière ce projet, on retrouve le même lecteur qui avait bricolé Nuclear Arms Race il y a quelques années et dont je vous avais parlé. Il a repris le concept, sauf que cette fois ce sont des IA qui jouent entre elles.
En tout cas, comme spectacle, c'est très hypnotique. Lancez un replay, vous allez voir... En regardant deux IA se bluffer et se faire exploser la tronche vous permettra d'en apprendre plus sur leur raisonnement qu'avec dix pages de benchmark.
Merci à Rymentz pour le lien et pour le projet !

Visa and OpenAI partner to enable autonomous AI agent payments
State attorneys general launch investigation into OpenAI data practices
OpenAI introduces manual rate limit resets for Codex to compete with Anthropic
Visa and OpenAI partner to enable secure autonomous payments for AI agents
OpenAI change les règles de Codex (et c’est à votre avantage)
![]()
OpenAI laisse désormais les utilisateurs de Codex mettre de côté leurs réinitialisations de quota pour les utiliser quand ça les arrange. Une petite fonction qui en dit long sur la guerre que se livrent OpenAI et Anthropic à quelques mois (semaines ?) de leurs entrées en Bourse.
OpenAI considers significant price cuts to compete with Anthropic
Visa and OpenAI partner to enable autonomous AI agent transactions
Les GAFAM sont morts, vive les MANGOS
![]()
Et si les GAFAM avaient déjà leur successeur ? Né sur X le 9 juin 2026, le mème « MANGOS » remplace les géants historiques par Meta, Anthropic, Nvidia, Google, OpenAI et SpaceX. Un acronyme rigolo, mais surtout révélateur d’un basculement de la tech.
Skepticism mounts over AI profitability and the risks of potential IPOs
OpenAI files confidential paperwork for a potential public market debut
OpenAI launches Economic Research Exchange to study AI impact on labor and firms
-
Cyberguerre
- Pour empêcher les fuites de données, ChatGPT lance un « mode verrouillé » : voici ce qu’il bloque, et ce qu’il ne bloque pas
Pour empêcher les fuites de données, ChatGPT lance un « mode verrouillé » : voici ce qu’il bloque, et ce qu’il ne bloque pas
![]()
OpenAI a déployé deux nouvelles options de sécurité pour les comptes ChatGPT : un mode de verrouillage pour limiter les risques d'exfiltration liés aux injections de prompts, et une fonctionnalité de gestion des sessions actives ouverte à tous.
OpenAI ajoute un "mode confinement" à ChatGPT pour bloquer les injections de prompt
ChatGPT a gagné un réglage qui ne plaira pas à tout le monde. Un "mode confinement", Lockdown Mode dans le texte, qui débranche volontairement une partie des fonctions de l'assistant pour réduire le risque de fuite de données vers l'extérieur.
L'ennemi, ici, porte un nom : l'injection de prompt. Le principe de cette attaque est plutôt vicieux, puisqu'un pirate planque des instructions dans une page web ou dans un document anodin, et qu'au moment où ChatGPT lit ce contenu pour vous répondre, il avale ces ordres cachés et les exécute sans que rien ne s'affiche à l'écran.
Ce qui inquiète OpenAI, c'est la suite. Une consigne dissimulée peut très bien ordonner à l'assistant d'aller récupérer vos informations sensibles, mots de passe ou documents personnels, avant de les renvoyer en douce vers un serveur que l'attaquant contrôle. On appelle ça l'exfiltration de données. C'est tout le scénario que le mode confinement cherche à rendre impossible, en bouclant les sorties plutôt qu'en filtrant les entrées.
Concrètement, il débranche à peu près tout ce qui relie ChatGPT au reste du web. La navigation en direct ? Coupée. Elle est ramenée au contenu déjà enregistré dans les serveurs d'OpenAI, ce qui fait qu'aucune requête ne file vers internet pendant que vous discutez.
Le ménage continue. Plus de récupération d'images depuis le web, plus de téléchargement de fichiers, plus de Deep Research, cet outil qui part compiler automatiquement des dizaines de sources, et plus d'Agent Mode, ce système qui laisse ChatGPT cliquer et agir tout seul sur des sites à votre place comme s'il était assis derrière votre clavier.
Vos propres fichiers, eux, passent toujours. Vous gardez la possibilité de téléverser images et documents à la main, et OpenAI précise que le mode ne touche ni à la mémoire de ChatGPT, ni au partage de conversations, ni à la façon dont vos échanges peuvent servir à entraîner les modèles maison.
L'activation est simple. Direction les réglages, rubrique sécurité, puis sécurité avancée, et vous basculez un interrupteur. C'est ouvert à tous les comptes personnels, y compris la version gratuite, ainsi qu'aux comptes ChatGPT Business en libre-service.
Sauf que voilà, OpenAI le précise clairement : ce mode n'est pas fait pour tout le monde. Il vise les gens et les boîtes qui manipulent des données sensibles et qui acceptent de sacrifier une partie du confort d'usage contre des garde-fous nettement plus serrés.
Et surtout, l'entreprise reconnaît la grosse limite du truc. Le mode confinement n'empêche en rien les injections de se glisser dans le contenu que ChatGPT analyse, il se contente de verrouiller les issues par lesquelles un pirate pourrait aspirer vos données une fois qu'il a pris la main. La faille de fond, elle, est toujours là.
Reconnaître publiquement qu'on pose une barrière sans régler le problème de fond, c'est honnête. Ça montre surtout que l'injection de prompt est un casse-tête que personne n'a encore su désamorcer.
Source : TechCrunch

-
Cyberguerre
- Chercher un sac sur ChatGPT, et tomber sur une arnaque : comment les LLM empoisonnées servent de vitrine aux escrocs
Chercher un sac sur ChatGPT, et tomber sur une arnaque : comment les LLM empoisonnées servent de vitrine aux escrocs
![]()
Dans un article paru le 7 juin 2026, le quotidien britannique The Guardian décrit comment des escrocs sont parvenus à faire remonter des boutiques clonées dans les réponses de ChatGPT. Une technique qui a exploité à la fois les failles des LLM et la disparition d'une marque emblématique.