Vue lecture

Il y a de nouveaux articles disponibles, cliquez pour rafraîchir la page.

TurboQuant : l’IA fonctionne enfin correctement sur PC et téléphone

TurboQuant vision Google - TurboQuant : l'IA fonctionne enfin correctement sur PC et téléphone

Quand vous utilisez une IA pour analyser un document, générer du code ou simplement discuter, le modèle doit conserver en mémoire tout ce qui a été échangé. Cette mémoire temporaire, appelée cache KV (Key-Value Cache), grossit à mesure que le contexte s’allonge. Le problème, c’est que plus une conversation ou un document est long, plus la consommation de mémoire augmente… Sur les grands modèles de langage (LLM), cela peut rapidement représenter plusieurs Go de RAM (ou de VRAM). Mais les choses évoluent…

TurboQuant vision Google - TurboQuant : l'IA fonctionne enfin correctement sur PC et téléphone

TurboQuant, la solution miracle ?

Tether a publié en open source TurboQuant. Il ne s’agit pas d’une nouvelle IA, mais d’une technologie intégrée capable de réduire jusqu’à 5 fois le besoin de mémoire des LLM. La technique repose sur la quantification : les données en cache prennent moins de place, sans impact sur des capacités du modèle. Dans certains cas, un modèle nécessitant 20 Go de VRAM pourrait fonctionner avec seulement 4 Go et donc faciliter l’exécution de LLM en local : sur un PC, un téléphone, voire un NAS.

TurboQuant apporte également un gain de performances sur les contextes très longs. Tether annonce une accélération comprise entre 15% et 19% pour des fenêtres de contexte allant de 128 000 à 256 000 tokens. En revanche, sur les contextes plus courts, le gain reste marginal…

Google l’a déjà intégré… et les marchés ont tremblé

En avril, Google a annoncé l’intégration de TurboQuant dans Gemini et Gemma 4. L’impact a été immédiat ! Côté bourse, SK Hynix a immédiatement chuté de 6,2 % et Samsung Electronics de 4,8 %, entraînant l’indice KOSPI dans une baisse allant jusqu’à 3 % en séance. Aux États-Unis, Micron a perdu 3,4 %, SanDisk 3,5 %, Western Digital 1,63 % et Seagate 4 %.

Le message des marchés est simple : si les modèles d’IA consomment moins de RAM, la demande en modules mémoires pour DataCenters pourrait chuter. Les cours se sont depuis redressés…

Vers une IA décentralisée

Le PDG de Tether positionne TurboQuant dans une ambition plus large : réduire la dépendance aux Clouds. TurboQuant est intégré au SDK QVAC 0.12.0, qui inclut également la génération vidéo à partir de texte et des fonctions de contrôle robotique. Le package propose un pipeline de quantification complet, des adaptateurs pour les principaux frameworks d’inférence, des profils de déploiement prêts à l’emploi et une documentation développeur. La couche d’exécution repose sur QVAC Fabric, le moteur d’IA local de Tether lancé cette année.

En passant à l’open source, Tether cherche à fédérer une communauté de développeurs autour de sa plateforme et à abaisser la barrière d’entrée pour le déploiement de l’IA.

Gemma 4 QAT : une autre approche complémentaire

TurboQuant n’est pas la seule technique qui pousse dans cette direction. Google vient publier des variantes Gemma 4 QAT (Quantization-Aware Training), une approche différente mais complémentaire. Là où TurboQuant « compresse » la mémoire utilisée pendant l’inférence (le cache KV), la QAT réduit la taille des poids du modèle lui-même, en intégrant la compression directement dans la phase d’entraînement plutôt qu’après coup.

Le modèle apprend à rester précis malgré la compression, au lieu de la subir. Google annonce des performances proches du modèle original en bfloat16, avec une empreinte mémoire drastiquement réduite. Le plus petit modèle de la gamme, le Gemma 4 E2B (pour du texte uniquement), passe sous le 1 Go de RAM ce qui est plutôt bienvenu pour nos téléphones.

En synthèse

TurboQuant est une technologie qui permet aux modèles d’IA de consommer moins de mémoire lorsqu’ils traitent de grandes quantités d’informations, tout en améliorant les performances sur les longs contextes. Elle « compresse » les données temporairement stockées par l’IA afin qu’elles occupent moins d’espace en mémoire. Des approches comme la QAT de Google complètent cette évolution en réduisant la taille des modèles eux-mêmes :! Les 2 techniques sont cumulables et pointent dans la même direction.

Est-ce que la demande en mémoire va baisser ? Très probablement dans les Data Centers, où les besoins en VRAM par modèle pourraient se contracter significativement. À plus long terme, cela pourrait aussi détendre le marché grand public, où les pénuries ont fait grimper les prix des modules DDR5 et LPDDR5. À surveiller également, l’arrivée de CXMT (ChangXin Memory Technologies), fabricant chinois qui monte en puissance et pourrait peser sur les prix indépendamment de l’évolution des usages IA.

❌