Depuis plusieurs jours, les théories se multiplient autour de l’étrange obsession de certains modèles d’OpenAI pour les gobelins, gremlins et autres créatures fantastiques. L’entreprise vient de publier une explication détaillée, et elle apporte un éclairage sur les limites de l’entraînement par renforcement.
Si vous habitiez à 20 mètres d'une station de lavage, iriez-vous à pied ou en voiture pour laver votre voiture ? Cela vous paraît évident. Mais pour ChatGPT, il y avait débat.
Avec sa mise à jour 3.0, Bevel, qui analyse les données des montres/bracelets connectés avec de l'intelligence artificielle, se rapproche encore plus des bracelets Whoop. L'application peut vous aider à préparer un marathon, construire un programme d'entraînement, analyser vos résultats sanguins et calculer l'âge de votre corps.
Parmi les sujets qui ont retenu votre attention cette semaine, il y avait la rivalité entre ChatGPT et Gemini, des nouvelles de la saison 3 des Anneaux de pouvoir et une bande-annonce marquante sur le film La Bataille de Gaulle.
Derrière les notes de mise à jour en apparence banales de Firefox 150 se cache un véritable séisme pour la cybersécurité. En s'alliant avec la nouvelle IA d'Anthropic, Mozilla a débusqué et corrigé près de 300 failles d'un coup. Une avancée historique qui pourrait bien signer la fin des attaques « zero-day » et définitivement inverser le rapport de force entre pirates et défenseurs.
Selon Bloomberg, un petit groupe d’utilisateurs issus d’un groupe Discord aurait eu accès à Claude Mythos, le modèle hyper‑restreint d’Anthropic, contournant ainsi les protections du modèle d'IA le plus scruté du moment.
Coup dur pour Anthropic. L'entreprise derrière le très performant modèle Claude a accidentellement rendu public le code source de son outil pour développeurs, Claude Code. Des internautes ont fouillé dans les dossiers et ont découvert plusieurs projets de l'entreprise. Y compris un curieux concept de Tamagotchi.
Coup dur pour Anthropic. L'entreprise derrière le très performant modèle Claude a accidentellement rendu public le code source de son outil pour développeurs, Claude Code. Des internautes ont fouillé dans les dossiers et ont découvert plusieurs projets de l'entreprise. Y compris un curieux concept de Tamagotchi.
Des chercheurs de l'université de Californie du Sud viennent de publier une étude improbable : demander à un modèle d'IA de jouer les experts dégrade ses performances sur les tâches factuelles. Commencer un prompt par "Tu es un expert en programmation" produit de moins bons résultats que de poser la question directement.
Le piège du "tu es un expert"
L'étude, intitulée "Expert Personas Improve LLM Alignment but Damage Accuracy", a mesuré l'impact des instructions de rôle sur les réponses des modèles de langage.
Sur le benchmark MMLU, qui teste les connaissances générales et le raisonnement, les modèles avec une persona d'expert ont obtenu 68 % de bonnes réponses contre 71,6 % sans aucune instruction de rôle.
La baisse est constante sur toutes les catégories testées : maths, code, sciences, culture générale. Bref, dire à une IA qu'elle est brillante la rend un peu moins brillante.
Quand ça marche quand même
Par contre, le persona prompting fonctionne très bien pour un autre type de tâches : la sécurité et l'alignement. En attribuant un rôle de "moniteur de sécurité" au modèle, les chercheurs ont augmenté le taux de refus d'attaques de 53,2 % à 70,9 %, soit une hausse de 17,7 points. Pour les tâches d'écriture et de mise en forme, les personas aident aussi.
L'explication est assez logique : quand on colle un rôle d'expert au modèle, il bascule en mode "suivi d'instructions" et mobilise moins de ressources pour aller chercher les faits dans ses données d'entraînement. Aucune connaissance n'est ajoutée, on déplace juste l'attention du modèle.
Le bon réflexe à adopter
Les chercheurs de l'USC proposent un outil baptisé PRISM qui active automatiquement les personas uniquement quand c'est utile. Mais en attendant que ce genre de système soit intégré aux chatbots grand public, la recommandation est simple : si vous avez besoin de réponses factuelles ou de code, posez votre question directement sans ajouter de rôle.
Si vous voulez que l'IA respecte un ton, un format ou des consignes de sécurité, le persona prompting reste la bonne approche.
On a quand même passé deux ans à répéter partout qu'il fallait commencer ses prompts par "Tu es un expert en..." pour avoir de meilleurs résultats. Visiblement, c'était un peu du vent.
Le framework d'IA agentique OpenClaw est dans le viseur des autorités chinoises. Le 10 mars 2026, le CERT national a publié une liste de recommandations pour encadrer son usage, tandis que des banques publiques et administrations auraient reçu des instructions directes pour en interdire l'installation.
Un agent IA autonome aurait piraté en moins de deux heures l'IA interne du cabinet de conseil McKinsey & Company. C'est en tout cas ce qu'affirme la startup de cybersécurité CodeWall, dont l'agent a pu avoir un accès total à la base de données de production. Sans mot de passe volé. Sans complice interne. Sans intervention humaine.
Le Pentagone et la société Anthropic renégocient l’accès au chatbot Claude sur les réseaux classifiés de l’armée, alors que le ministère américain de la Défense presse les acteurs de l'intelligence artificielle d’assouplir leurs garde-fous.