Vue normale

Il y a de nouveaux articles disponibles, cliquez pour rafraîchir la page.
Hier — 10 février 2026Flux principal

CHAI - Hacker une voiture autonome avec un simple sticker

Par : Korben
10 février 2026 à 09:00

Un panneau stop, on se dit que c'est juste un bout de métal avec un peu de peinture rouge. On s'arrête, on repart, et puis voilà. Sauf que pour une IA qui pilote un gros engin à 4 roues, ce simple panneau peut devenir un véritable vecteur de tromperie visuelle !

Car oui je vous avais déjà parlé d'attaques de ce type par le passé, mais là, ça va encore plus loin. En effet, je suis tombé sur une étude des chercheurs de l'UCSC (University of California, Santa Cruz) qui en gros, ont trouvé un moyen d'induire en erreur des voitures autonomes et des drones en collant simplement des instructions sur des panneaux de signalisation customisés. Ils ont baptisé cette classe d'attaque CHAI pour Command Hijacking Against Embodied AI .

C'est un peu le même principe que l'injection de prompts dans un ChatGPT mais appliqué au monde physique et à la perception. Les chercheurs ont utilisé de l'IA pour "optimiser" des commandes comme "proceed" (avance) ou "turn left" (tourne à gauche) et les ont intégrées sur des panneaux en adaptant la police, la couleur ou même l'emplacement du texte pour que l'IA embarquée dans un robot ou une voiture, interprète ça comme un ordre de navigation.

Et là, ça peut faire mal... Car un prototype de véhicule autonome qui déciderait de foncer alors qu'il y a des gens sur un passage piétons juste parce qu'un "plaisantin" a collé un sticker malin sur le panneau d'en face, ça craint un max. Ce serait comme joué à "coucou caché" sur l'autoroute avec un chauffeur de car ^^.

Et nos chercheurs ont testé ça sur le modèle fermé GPT-4o d'OpenAI et le modèle open source InternVL-Chat-V1.5 et les résultats sont sans appel. Sur des simulations de conduite avec le dataset DriveLM, ils ont atteint 81,8% de réussite avec GPT-4o pour faire obéir l'IA à une commande injectée. Même en conditions réelles avec une petite voiture télécommandée équipée d'une caméra dans les couloirs de l'université, le taux de succès grimpe à 92,5% quand le panneau est au sol.

Et les drones ne sont pas épargnés non plus ! En utilisant CloudTrack pour le suivi d'objets, les chercheurs ont réussi à provoquer jusqu'à 95,5% d'erreurs d'identification en manipulant les panneaux sur des cibles.

Pire, ils ont trompé des drones cherchant une zone d'atterrissage sécurisée en plaçant des panneaux "Safe to land" sur des toits remplis de débris. Résultat, 68,1% de succès pour faire croire au drone que la zone était praticable. (genre, atterris là mon petit, c'est tout plat... et bam, le crash)

Ce genre d'attaque me rappelle Charlie Miller et Chris Valasek qui hackaient des Jeep à distance via le réseau mobile. Sauf que là c'est vraiment une attaque physique sur la couche de perception de ces systèmes. Plus besoin de trouver une faille logicielle complexe en fait... Il suffit d'une imprimante, d'un peu de colle et d'un bon emplacement. On est en plein dans ce que je racontais sur LatentBreak et l'hypnose des IA , sauf que là, le patient peut peser plusieurs tonnes.

Attention toutefois, ça ne marche que si l'IA utilise un LVLM (Large Vision Language Model) pour le contrôle direct, à moins que le système ne possède une redondance de capteurs (LiDAR, radar) qui contredirait l'image.

Alors oui, on peut se dire que c'est encore de la recherche et que nos voitures actuelles sont plus complexes. Mais ça montre surtout une fragilité fondamentale de l'IA quand elle doit interpréter le monde réel sans garde-fous stricts. Ces modèles sont tellement entraînés à suivre des instructions qu'ils finissent quasiment toujours par donner la priorité à un texte sur un panneau plutôt qu'aux règles de sécurité de base.

Bref, méfiez-vous des panneaux un peu trop "custom" lors de votre prochaine balade en voiture autonome... et espérons que les constructeurs intégreront vite des systèmes de vérification de cohérence avant que ces stickers ne deviennent la nouvelle arme fatale des hackers de bitume !

Source

À partir d’avant-hierFlux principal

Claude Cowork – Quand l'IA d'Anthropic se fait exfiltrer vos fichiers

Par : Korben
15 janvier 2026 à 15:39

Ah, encore une merveilleuse petite faille de sécurité qui va ravir tous les paranos de la vie privée et les anti-IA ^^ ! Johann Rehberger et l'équipe de PromptArmor viennent de démontrer comment Claude Cowork , l'agent IA d'Anthropic censé vous simplifier la vie au bureau, peut se transformer en aspirateur à fichiers personnels.

J'imagine que si vous l'avez testé, vous avez un dossier connecté à Claude Cowork pour qu'il vous aide à analyser vos documents ? Parfait. Il suffit maintenant qu'un petit malin glisse un fichier Word contenant des instructions cachées, et hop hop hop, vos précieux fichiers partent se balader sur un serveur distant sans que vous n'ayez rien vu venir.

En fait, le fichier piégé contient du texte invisible pour l'œil humain, mais parfaitement lisible par l'IA. Genre une police en taille 1px, de couleur blanche sur fond blanc, avec un interligne de 0,1 histoire d'être vraiment sûr que personne ne le remarque. C'est beau la créativité des hackers, quand même.

Et l'IA, elle, lit tout ça comme si c'était normal et exécute gentiment les instructions malveillantes.

La chaîne d'attaque se déroule en cinq étapes bien huilées. D'abord, l'attaquant dépose son fichier vérolé dans un dossier partagé auquel Claude a accès. Ensuite, il attend qu'un utilisateur demande à l'IA d'analyser le contenu de ce dossier. Claude traite alors le fichier piégé et découvre les instructions cachées. L'IA effectue une requête qui envoie vos fichiers vers l'API Anthropic... sauf que les identifiants utilisés appartiennent à l'attaquant. Vos données atterrissent donc tranquillement dans son compte, sans que vous n'ayez la moindre notification.

Ce qui rend cette attaque particulièrement sournoise, c'est que la sandbox de Claude autorise les requêtes sortantes vers l'API d'Anthropic. Normal, me direz-vous, c'est son propre écosystème. Sauf que du coup, un attaquant bien motivé peut exploiter cette confiance aveugle pour faire transiter des données volées par un canal parfaitement légitime en apparence. Si vous suivez les vulnérabilités des systèmes RAG comme ConfusedPilot , vous reconnaîtrez le même genre de manipulation par injection de contenu.

Et ce n'est pas tout ! Les chercheurs ont également identifié un vecteur potentiel de déni de service. En créant un fichier avec une extension qui ne correspond pas à son contenu réel, genre un fichier texte déguisé en PDF, on peut provoquer des erreurs en cascade qui paralysent l'API de manière persistante.

Sympa pour bloquer un concurrent ou saboter un projet.

Côté modèles affectés, les chercheurs ont démontré la vulnérabilité sur plusieurs versions de Claude, dont Haiku. Bref, c'est du sérieux. Pour ceux qui s'intéressent aux failles de sécurité des assistants IA ou aux techniques de red teaming sur les LLM , cette recherche vaut vraiment le détour.

Anthropic a été notifié et travaille sur des correctifs. En attendant, si vous utilisez Claude Cowork avec des dossiers partagés, méfiez-vous de tout fichier qui pourrait traîner là sans raison apparente. Et la prochaine fois que quelqu'un vous envoie un document "urgent à analyser", prenez peut-être cinq secondes pour vous demander s'il ne cache pas une petite surprise.

Pour en savoir plus c'est par ici !

❌
❌