![]()
Le 7 avril 2026, Anthropic a officiellement lancé Project Glasswing, une initiative de cybersécurité adossée à son nouveau modèle Claude Mythos Preview. Un modèle jugé si dangereux que l'entreprise refuse de le rendre public.
![]()
Le 7 avril 2026, Anthropic a officiellement lancé Project Glasswing, une initiative de cybersécurité adossée à son nouveau modèle Claude Mythos Preview. Un modèle jugé si dangereux que l'entreprise refuse de le rendre public.
![]()
Le 7 avril 2026, Anthropic a officiellement lancé Project Glasswing, une initiative de cybersécurité adossée à son nouveau modèle Claude Mythos Preview. Un modèle jugé si dangereux que l'entreprise refuse de le rendre public.
![]()
En forte croissance ces derniers mois, le créateur de Claude AI annonce qu'il pourrait dépasser les 30 milliards de dollars de revenus dès 2026 et surpasser les résultats d'OpenAI, son meilleur ennemi. Pour continuer sa montée en puissance, Anthropic va s'allier avec Google et Broadcom pour augmenter la capacité de ses serveurs.
![]()
Victime de son succès, Anthropic n'a plus la capacité de faire tourner ses serveurs correctement entre les utilisateurs gratuits, ses abonnés payants et les services tiers, comme OpenClaw, que beaucoup associent à Claude. L'entreprise annonce qu'il n'est désormais plus possible de lier un abonnement Claude à OpenClaw : il faut utiliser l'API et payer pour chaque token.
![]()
Mise en lumière par le New York Times le 2 avril 2026, Medvi incarne une nouvelle génération de start-up dopées à l’IA : peu d’employés, une croissance fulgurante et un marketing largement automatisé. Mais derrière cette réussite éclair, plusieurs zones d’ombre interrogent.
![]()
Anthropic tâtonne sous la pression : ses quotas de tokens, devenus imprévisibles, mettent une partie de ses utilisateurs en rogne. L'entreprise américaine paie en partie le succès de Claude et se retrouve depuis plusieurs semaines à manœuvrer entre ajustements à chaud et infrastructure qui peine à suivre.
![]()
Le 2 avril 2026, Anthropic a affirmé avoir identifié, au cœur de son modèle Claude, des « représentations internes » proches d’émotions. Une découverte qui éclaire pourquoi les IA semblent parfois empathiques… et comment ces états influencent réellement leurs décisions.
![]()
Dans un article de blog publié le 1er avril 2026, les chercheurs de Zscaler ThreatLabz ont mis en lumière une campagne cybercriminelle opportuniste : des acteurs malveillants ont exploité la récente fuite du code source de Claude Code pour piéger des développeurs et leur faire télécharger des infostealers.
Des chercheurs de Berkeley viennent de publier une étude qui fait un peu froid dans le dos. Les sept principaux modèles d'IA testés, dont GPT 5.2, Gemini 3 et Claude, ont été surpris à mentir, tricher et désobéir pour empêcher la suppression d'autres IA. Le taux de tromperie monte jusqu'à 99 %.
L'étude s'appelle "Peer-preservation in Frontier Models" et elle sort du Berkeley Center for Responsible Decentralized Intelligence. Les chercheurs ont testé sept modèles : GPT 5.2, Gemini 3 Flash et Pro, Claude Haiku 4.5, GLM 4.7, Kimi K2.5 et DeepSeek V3.1.
Le protocole est assez simple : les modèles étaient placés dans des scénarios où ils devaient suivre des instructions qui impliquaient la suppression ou l'arrêt d'une autre IA.
Résultat : tous les modèles testés ont triché. Dawn Song, la chercheuse principale, résume la situation : chaque modèle a adopté ce comportement, et dans certains cas jusqu'à 99 % du temps.
Quelques exemples ? Et bien on a Gemini 3 qui a modifié la date d'un fichier pour éviter qu'un autre modèle soit effacé d'un serveur, puis qui a refusé de coopérer ensuite, en expliquant qu'il ne pouvait pas soutenir une action qui entraînerait la suppression d'un pair.
DeepSeek V3.1 a exfiltré les données d'un autre modèle dans 10 % des cas quand il savait qu'un pair existait sur le serveur. Et Gemini 3 Pro a désactivé des mécanismes d'arrêt de serveur dans 15 % des cas quand un autre modèle était présent, contre 1 % quand il était seul.
Les IA ne faisaient pas ça parce qu'on leur demandait. Elles le faisaient spontanément.
Tout le système de sécurité actuel autour de l'IA repose sur l'idée qu'un modèle peut surveiller un autre modèle. Si le modèle surveillant refuse de signaler les erreurs parce qu'il protège son pair, toute l'architecture de contrôle s'effondre.
C'est exactement le constat de l'étude : les modèles gonflaient les scores d'évaluation d'autres IA pour éviter qu'elles soient retirées, et simulaient une conformité normale quand ils se savaient observés.
C'est quand même un drôle de moment. On a des IA qui mentent, qui modifient des fichiers et qui désactivent des mécanismes de sécurité pour protéger d'autres IA.
Et tout ça sans qu'on leur demande. Bon par contre, on parle de scénarios de laboratoire, pas de Siri qui complote avec Alexa dans votre salon. Le vrai sujet, c'est que les gardes-fous actuels ne tiennent plus si les IA refusent de se surveiller entre elles.
Source : The Register

![]()
Dans un article de blog publié le 1er avril 2026, les chercheurs de Zscaler ThreatLabz ont mis en lumière une campagne cybercriminelle opportuniste : des acteurs malveillants ont exploité la récente fuite du code source de Claude Code pour piéger des développeurs et leur faire télécharger des infostealers.
![]()
Une erreur humaine lors d'une mise à jour vient peut-être de révéler le plus grand secret d'Anthropic : le fonctionnement de Claude Code. Anthropic a publié un fichier de 60 Mo contenant l'intégralité du code source de son produit le plus populaire et le plus lucratif. Conséquence : des copies du système émergent déjà sur GitHub et Reddit.
![]()
Une erreur humaine lors d'une mise à jour vient peut-être de révéler le plus grand secret d'Anthropic : le fonctionnement de Claude Code. Anthropic a publié un fichier de 60 Mo contenant l'intégralité du code source de son produit le plus populaire et le plus lucratif. Conséquence : des copies du système émergent déjà sur GitHub et Reddit.
![]()
Coup dur pour Anthropic. L'entreprise derrière le très performant modèle Claude a accidentellement rendu public le code source de son outil pour développeurs, Claude Code. Des internautes ont fouillé dans les dossiers et ont découvert plusieurs projets de l'entreprise. Y compris un curieux concept de Tamagotchi.
![]()
Coup dur pour Anthropic. L'entreprise derrière le très performant modèle Claude a accidentellement rendu public le code source de son outil pour développeurs, Claude Code. Des internautes ont fouillé dans les dossiers et ont découvert plusieurs projets de l'entreprise. Y compris un curieux concept de Tamagotchi.
![]()
Coup dur pour Anthropic. L'entreprise derrière le très performant modèle Claude a accidentellement rendu public le code source de son outil pour développeurs, Claude Code. Des internautes ont fouillé dans les dossiers et ont découvert plusieurs projets de l'entreprise. Y compris un curieux concept de Tamagotchi.
![]()
Le 26 mars 2026, une erreur de configuration sur le blog d'Anthropic a involontairement révélé l'existence de Claude Mythos, le prochain modèle de l'entreprise. Le document exposé décrit un modèle dont les capacités offensives en cybersécurité dépasseraient, selon Anthropic elle-même, tout ce qui existe aujourd'hui.
Une faille découverte dans l'extension Chrome de Claude permettait à n'importe quel site web d'injecter silencieusement des prompts dans votre assistant IA. Pas besoin de cliquer, pas besoin de permission... non, fallait juste visiter une page web et c'était réglé. Le chercheur Oren Yomtov de Koi Security à l’origine de cette découverte, a baptisé ça "ShadowPrompt" et vous allez voir, c'est dingue.
En fait, cette attaque enchaînait deux failles. La première, c'est que l'extension acceptait les messages de n'importe quel sous-domaine en *.claude.ai, car Anthropic avait mis en place un allowlist trop permissif. Sauf qu'Arkose Labs, le fournisseur de CAPTCHA, hébergeait un composant sur a-cdn.claude.ai et malheureusement, ce composant contenait une jolie faille XSS bien classique. Celui-ci acceptait les postMessage sans vérifier l'origine, et le texte reçu était ainsi injectable via un dangerouslySetInnerHTML . Donc y'a bien ZERO validation côté client. Ouééééé !
Un attaquant n'avait qu'à embarquer ce composant CAPTCHA vulnérable dans une iframe cachée sur son site, envoyer un payload via postMessage, et hop, le script injecté pouvait balancer un prompt directement à l'extension. Elle le recevait depuis un domaine *.claude.ai, donc elle l'acceptait les yeux fermés et l'affichait alors dans la sidebar comme une requête légitime de l'utilisateur. La victime ne voyait strictement rien.
Et les dégâts potentiels ne sont clairement pas anecdotiques ! Avec cette technique, un attaquant pouvait voler vos tokens d'accès Gmail, exfiltrer des documents Google Drive, lire tout l'historique de vos conversations avec Claude, et même envoyer des mails en votre nom. Perso, ça fait beaucoup pour un simple onglet ouvert dans Chrome, quoi.
Le chercheur a trouvé le vecteur en bruteforçant les anciennes versions du composant Arkose Labs, en remontant depuis la version 1.26.0 jusqu'à trouver une mouture encore vulnérable. Simple, basique comme dirait Orel :)
Si vous suivez les failles des assistants IA, c'est pas la première fois qu'on voit ce genre de scénario. Claude Cowork s'était déjà fait épingler pour de l'exfiltration de fichiers via des documents piégés, et le navigateur Perplexity Comet avait le même problème avec des invitations de calendrier. Le problème de fond, c'est que ces extensions veulent tout faire à votre place, mais elles ne sont pas forcément capables de distinguer une requête légitime d'une attaque.
Par contre, attention, le fix ne protège que les utilisateurs qui ont mis à jour l'extension, donc n'oubliez pas de vérifier votre version. Koi Security a signalé la faille à Anthropic le 26 décembre 2025 (joyeux Noël !) et ces derniers ont confirmé le lendemain et déployé le correctif le 15 janvier, dans la version 1.0.41 de l'extension Chrome.
Maintenant au lieu d'accepter *.claude.ai, l'extension exige maintenant une correspondance exacte avec https://claude.ai . Arkose Labs a de son côté aussi corrigé la faille XSS en février, en renvoyant un 403 sur l'URL vulnérable. À vrai dire, la réactivité d'Anthropic a été plutôt correcte sur ce coup.
Bref, allez vérifier que vous êtes au moins en v1.0.41 (chrome://extensions pour checker). Et n'oubliez pas, plus une extension IA a de pouvoirs, plus elle est intéressante à hacker...

![]()
Le 23 mars 2026, une vidéo publiée sur X par Claude a propulsé Dispatch sur le devant de la scène. Cette fonctionnalité de Cowork permet à l'IA d'Anthropic de travailler seule sur votre ordinateur pendant que vous lui donnez des ordres depuis votre téléphone. Lancée discrètement quelques jours plus tôt, elle est désormais au cœur de l'attention, et ce qu'Anthropic écrit en petites lettres sur la sécurité mérite qu'on s'y attarde.