Vue normale

Il y a de nouveaux articles disponibles, cliquez pour rafraîchir la page.
Aujourd’hui — 11 juin 2026Flux principal

TurboQuant : l’IA fonctionne enfin correctement sur PC et téléphone

Par : Fx
11 juin 2026 à 07:00
TurboQuant vision Google - TurboQuant : l'IA fonctionne enfin correctement sur PC et téléphone

Quand vous utilisez une IA pour analyser un document, générer du code ou simplement discuter, le modèle doit conserver en mémoire tout ce qui a été échangé. Cette mémoire temporaire, appelée cache KV (Key-Value Cache), grossit à mesure que le contexte s’allonge. Le problème, c’est que plus une conversation ou un document est long, plus la consommation de mémoire augmente… Sur les grands modèles de langage (LLM), cela peut rapidement représenter plusieurs Go de RAM (ou de VRAM). Mais les choses évoluent…

TurboQuant vision Google - TurboQuant : l'IA fonctionne enfin correctement sur PC et téléphone

TurboQuant, la solution miracle ?

Tether a publié en open source TurboQuant. Il ne s’agit pas d’une nouvelle IA, mais d’une technologie intégrée capable de réduire jusqu’à 5 fois le besoin de mémoire des LLM. La technique repose sur la quantification : les données en cache prennent moins de place, sans impact sur des capacités du modèle. Dans certains cas, un modèle nécessitant 20 Go de VRAM pourrait fonctionner avec seulement 4 Go et donc faciliter l’exécution de LLM en local : sur un PC, un téléphone, voire un NAS.

TurboQuant apporte également un gain de performances sur les contextes très longs. Tether annonce une accélération comprise entre 15% et 19% pour des fenêtres de contexte allant de 128 000 à 256 000 tokens. En revanche, sur les contextes plus courts, le gain reste marginal…

Google l’a déjà intégré… et les marchés ont tremblé

En avril, Google a annoncé l’intégration de TurboQuant dans Gemini et Gemma 4. L’impact a été immédiat ! Côté bourse, SK Hynix a immédiatement chuté de 6,2 % et Samsung Electronics de 4,8 %, entraînant l’indice KOSPI dans une baisse allant jusqu’à 3 % en séance. Aux États-Unis, Micron a perdu 3,4 %, SanDisk 3,5 %, Western Digital 1,63 % et Seagate 4 %.

Le message des marchés est simple : si les modèles d’IA consomment moins de RAM, la demande en modules mémoires pour DataCenters pourrait chuter. Les cours se sont depuis redressés…

Vers une IA décentralisée

Le PDG de Tether positionne TurboQuant dans une ambition plus large : réduire la dépendance aux Clouds. TurboQuant est intégré au SDK QVAC 0.12.0, qui inclut également la génération vidéo à partir de texte et des fonctions de contrôle robotique. Le package propose un pipeline de quantification complet, des adaptateurs pour les principaux frameworks d’inférence, des profils de déploiement prêts à l’emploi et une documentation développeur. La couche d’exécution repose sur QVAC Fabric, le moteur d’IA local de Tether lancé cette année.

En passant à l’open source, Tether cherche à fédérer une communauté de développeurs autour de sa plateforme et à abaisser la barrière d’entrée pour le déploiement de l’IA.

Gemma 4 QAT : une autre approche complémentaire

TurboQuant n’est pas la seule technique qui pousse dans cette direction. Google vient publier des variantes Gemma 4 QAT (Quantization-Aware Training), une approche différente mais complémentaire. Là où TurboQuant « compresse » la mémoire utilisée pendant l’inférence (le cache KV), la QAT réduit la taille des poids du modèle lui-même, en intégrant la compression directement dans la phase d’entraînement plutôt qu’après coup.

Le modèle apprend à rester précis malgré la compression, au lieu de la subir. Google annonce des performances proches du modèle original en bfloat16, avec une empreinte mémoire drastiquement réduite. Le plus petit modèle de la gamme, le Gemma 4 E2B (pour du texte uniquement), passe sous le 1 Go de RAM ce qui est plutôt bienvenu pour nos téléphones.

En synthèse

TurboQuant est une technologie qui permet aux modèles d’IA de consommer moins de mémoire lorsqu’ils traitent de grandes quantités d’informations, tout en améliorant les performances sur les longs contextes. Elle « compresse » les données temporairement stockées par l’IA afin qu’elles occupent moins d’espace en mémoire. Des approches comme la QAT de Google complètent cette évolution en réduisant la taille des modèles eux-mêmes :! Les 2 techniques sont cumulables et pointent dans la même direction.

Est-ce que la demande en mémoire va baisser ? Très probablement dans les Data Centers, où les besoins en VRAM par modèle pourraient se contracter significativement. À plus long terme, cela pourrait aussi détendre le marché grand public, où les pénuries ont fait grimper les prix des modules DDR5 et LPDDR5. À surveiller également, l’arrivée de CXMT (ChangXin Memory Technologies), fabricant chinois qui monte en puissance et pourrait peser sur les prix indépendamment de l’évolution des usages IA.

Les GAFAM sont morts, vive les MANGOS

10 juin 2026 à 18:30

Et si les GAFAM avaient déjà leur successeur ? Né sur X le 9 juin 2026, le mème « MANGOS » remplace les géants historiques par Meta, Anthropic, Nvidia, Google, OpenAI et SpaceX. Un acronyme rigolo, mais surtout révélateur d’un basculement de la tech.

Hier — 10 juin 2026Flux principal

Gemini en panne : l’IA de Google tourne dans le vide depuis ce midi

10 juin 2026 à 14:12

L'assistant conversationnel de Google connaît depuis le milieu de la journée ce mercredi un dysfonctionnement généralisé. Les utilisateurs signalent en masse des requêtes sans réponse, sans que Google n'ait pour l'heure reconnu l'incident.

Gemini en panne : l’IA de Google tourne dans le vide depuis ce midi

10 juin 2026 à 14:12

L'assistant conversationnel de Google connaît depuis le milieu de la journée ce mercredi un dysfonctionnement généralisé. Les utilisateurs signalent en masse des requêtes sans réponse, sans que Google n'ait pour l'heure reconnu l'incident.

Google Chrome : 74 vulnérabilités patchées, dont une faille zero-day déjà exploitée !

10 juin 2026 à 10:23

Mise à jour Google Chrome : 74 vulnérabilités corrigées, dont la CVE-2026-11645, une faille zero-day déjà exploitée. Voici comment vous protéger.

Le post Google Chrome : 74 vulnérabilités patchées, dont une faille zero-day déjà exploitée ! a été publié sur IT-Connect.

Google et Intel main dans la main sur les puces IA ? Tout ne serait pas aussi facile

Alors que l'annonce d'un contrat massif de 3 millions de puces entre Google et Intel agite le secteur de la tech, les analystes de JPMorgan tempèrent l'enthousiasme général. Selon eux, Intel ne fabriquerait pas réellement les processeurs, mais se contenterait de leur assemblage final, laissant la production stratégique entre les mains de son rival TSMC.

L’article Google et Intel main dans la main sur les puces IA ? Tout ne serait pas aussi facile est apparu en premier sur Tom’s Hardware.

full

thumbnail
À partir d’avant-hierFlux principal

Le nouveau Siri expliqué : cinq modèles maison, le vrai rôle de Google Gemini et des GPU Nvidia

9 juin 2026 à 09:55

AFM Core, AFM Core Advanced, AFM Cloud, ADM Cloud et AFM Cloud Pro : Apple ne lance pas un, mais cinq modèles d'IA. Contrairement à ce que beaucoup écrivent, la marque californienne ne se contente pas d'utiliser les modèles Gemini de Google pour son nouvel assistant Siri AI : la réalité est bien plus complexe. Numerama a assisté à plusieurs sessions techniques à Cupertino et vous explique tout.

Ne demandez pas à ChatGPT ou Gemini de restaurer une image vide, ou attendez-vous au pire

8 juin 2026 à 16:38

Un prompt repéré en mai 2026 sur X consiste à demander à ChatGPT de restaurer une image... sans joindre quoi que ce soit. Et les résultats sont tous plus étranges les uns que les autres.

Gemini piégé par de simples notifications : une attaque par injection de prompt a détourné l’assistant de Google

4 juin 2026 à 19:05

Dans un article publié le 3 juin 2026, des chercheurs de SafeBreach ont prouvé comment de simples notifications pouvaient suffire à manipuler Google Gemini. En exploitant le résumé vocal des messages, ils sont notamment parvenus à injecter des instructions invisibles, capables de tromper l’utilisateur à son insu.

Gemini piégé par de simples notifications : une attaque par injection de prompt a détourné l’assistant de Google

4 juin 2026 à 19:05

Dans un article publié le 3 juin 2026, des chercheurs de SafeBreach ont prouvé comment de simples notifications pouvaient suffire à manipuler Google Gemini. En exploitant le résumé vocal des messages, ils sont notamment parvenus à injecter des instructions invisibles, capables de tromper l’utilisateur à son insu.

Google lance Dreambeans une app qui transforme vos données personnelles en BD illustrée chaque matin

4 juin 2026 à 10:31

Le 3 juin 2026, Google Labs a lancé Dreambeans, une application expérimentale qui fouille vos mails, votre agenda et votre historique YouTube pendant que vous dormez pour vous livrer chaque matin une sélection d'histoires illustrées par IA.

Google lance Dreambeans une app qui transforme vos données personnelles en BD illustrée chaque matin

4 juin 2026 à 10:31

Le 3 juin 2026, Google Labs a lancé Dreambeans, une application expérimentale qui fouille vos mails, votre agenda et votre historique YouTube pendant que vous dormez pour vous livrer chaque matin une sélection d'histoires illustrées par IA.

Qwant remplace Google au Parlement européen : le vrai début de la souveraineté numérique ?

3 juin 2026 à 12:15

Le 4 juin, le Parlement européen remplacera Google par Qwant comme moteur de recherche par défaut sur ses ordinateurs. Une bascule qui intervient au moment où les institutions européennes multiplient les initiatives pour réduire leur dépendance aux logiciels américains… et où les grands groupes américains s'inquiètent de la politique européenne.

❌
❌