Vue normale

Il y a de nouveaux articles disponibles, cliquez pour rafraîchir la page.
Hier — 12 juin 2026Flux principal

Waymo se rapproche encore plus d’Uber en obligeant ses clients à payer pour avoir une course plus vite

12 juin 2026 à 14:02

Waymo lance une offre de fidélité par abonnement à 30 dollars par mois. Destiné aux clients réguliers de San Francisco, Los Angeles et Phoenix, ce programme baptisé « Waymo Premier » propose des trajets prioritaires et du cashback sur les courses. Une stratégie qui vise à sécuriser des revenus récurrents face à la concurrence indirecte d'Uber et Lyft.

DiffusionGemma : le nouveau modèle de Google écrit son texte d'un bloc, et 4 fois plus vite

12 juin 2026 à 09:32

Plus de 1 000 tokens par seconde sur une seule carte H100, l'accélérateur que Nvidia vend aux centres de données, et environ 700 sur une RTX 5090, sa carte gaming haut de gamme. C'est le débit que Google DeepMind annonce pour DiffusionGemma, son nouveau modèle d'IA ouvert, à peu près quatre fois ce que produisent les modèles Gemma classiques de taille comparable.

Toute la différence se joue dans la façon de générer le texte. Les modèles de langage habituels sont autorégressifs : ils écrivent de gauche à droite, un token à la fois, le token étant le petit morceau de mot que manipule une IA. DiffusionGemma fait tout autrement.

Il travaille comme les générateurs d'images, qui partent d'un nuage de bruit et le débruitent petit à petit jusqu'à la photo demandée. Le modèle pose un canevas de 256 tokens fictifs, repasse dessus plusieurs fois pour affiner ses estimations, puis finalise le bloc entier d'un coup.

Sous le capot, on a un Mixture of Experts de 26 milliards de paramètres, une architecture où seule une petite partie du modèle se réveille à chaque calcul, 3,8 milliards ici. Du coup le tout tient dans 18 Go de mémoire vidéo en version compressée, soit une grosse carte graphique grand public.

L'intérêt en local, c'est que cette approche déplace le goulot d'étranglement de la bande passante mémoire, la vitesse à laquelle la carte lit ses propres données, vers le calcul pur. Dans le cloud, les serveurs mutualisent les requêtes de milliers d'utilisateurs et leurs puces tournent en permanence, alors que votre GPU à la maison passe le plus clair de son temps à attendre les données. La diffusion occupe ces cycles perdus.

Et puis il y a les tâches non linéaires, où l'ordre d'écriture ne suit pas l'ordre de lecture. Google a même affiné une version sur le Sudoku, un casse-tête réputé impossible pour les modèles classiques puisque chaque case dépend de cases pas encore écrites. DiffusionGemma, qui corrige son canevas en continu, atteint 80% de réussite en faisant tomber les étapes de calcul de 48 à 12.

Tout n'est pas rose pour autant. Dans une image, un pixel raté passe inaperçu. Un token mal prédit, lui, peut rendre un paragraphe entier incohérent et forcer à tout recommencer. Et pour une réponse de cinq mots, dégrossir un canevas complet gaspille du calcul. C'est d'ailleurs pour ça que les gros Gemini du cloud n'y passent pas.

Le modèle est expérimental, mais il sort sous licence Apache 2.0, la même que le reste de la famille Gemma 4, donc utilisable commercialement sans restriction. Les poids se téléchargent dès maintenant sur Hugging Face, la plateforme de référence des modèles ouverts, avec une optimisation menée main dans la main avec Nvidia. MLX, l'outil d'Apple pour faire tourner l'IA en local, est aussi de la partie, les Mac sont donc servis.

Si vous voulez mon avis, c'est sur ces modèles locaux que Google est le plus intéressant en ce moment, bien plus que sur Gemini.

Source : ARS Technica

À partir d’avant-hierFlux principal

TurboQuant : l’IA fonctionne enfin correctement sur PC et téléphone

Par : Fx
11 juin 2026 à 07:00
TurboQuant vision Google - TurboQuant : l'IA fonctionne enfin correctement sur PC et téléphone

Quand vous utilisez une IA pour analyser un document, générer du code ou simplement discuter, le modèle doit conserver en mémoire tout ce qui a été échangé. Cette mémoire temporaire, appelée cache KV (Key-Value Cache), grossit à mesure que le contexte s’allonge. Le problème, c’est que plus une conversation ou un document est long, plus la consommation de mémoire augmente… Sur les grands modèles de langage (LLM), cela peut rapidement représenter plusieurs Go de RAM (ou de VRAM). Mais les choses évoluent…

TurboQuant vision Google - TurboQuant : l'IA fonctionne enfin correctement sur PC et téléphone

TurboQuant, la solution miracle ?

Tether a publié en open source TurboQuant. Il ne s’agit pas d’une nouvelle IA, mais d’une technologie intégrée capable de réduire jusqu’à 5 fois le besoin de mémoire des LLM. La technique repose sur la quantification : les données en cache prennent moins de place, sans impact sur des capacités du modèle. Dans certains cas, un modèle nécessitant 20 Go de VRAM pourrait fonctionner avec seulement 4 Go et donc faciliter l’exécution de LLM en local : sur un PC, un téléphone, voire un NAS.

TurboQuant apporte également un gain de performances sur les contextes très longs. Tether annonce une accélération comprise entre 15% et 19% pour des fenêtres de contexte allant de 128 000 à 256 000 tokens. En revanche, sur les contextes plus courts, le gain reste marginal…

Google l’a déjà intégré… et les marchés ont tremblé

En avril, Google a annoncé l’intégration de TurboQuant dans Gemini et Gemma 4. L’impact a été immédiat ! Côté bourse, SK Hynix a immédiatement chuté de 6,2 % et Samsung Electronics de 4,8 %, entraînant l’indice KOSPI dans une baisse allant jusqu’à 3 % en séance. Aux États-Unis, Micron a perdu 3,4 %, SanDisk 3,5 %, Western Digital 1,63 % et Seagate 4 %.

Le message des marchés est simple : si les modèles d’IA consomment moins de RAM, la demande en modules mémoires pour DataCenters pourrait chuter. Les cours se sont depuis redressés…

Vers une IA décentralisée

Le PDG de Tether positionne TurboQuant dans une ambition plus large : réduire la dépendance aux Clouds. TurboQuant est intégré au SDK QVAC 0.12.0, qui inclut également la génération vidéo à partir de texte et des fonctions de contrôle robotique. Le package propose un pipeline de quantification complet, des adaptateurs pour les principaux frameworks d’inférence, des profils de déploiement prêts à l’emploi et une documentation développeur. La couche d’exécution repose sur QVAC Fabric, le moteur d’IA local de Tether lancé cette année.

En passant à l’open source, Tether cherche à fédérer une communauté de développeurs autour de sa plateforme et à abaisser la barrière d’entrée pour le déploiement de l’IA.

Gemma 4 QAT : une autre approche complémentaire

TurboQuant n’est pas la seule technique qui pousse dans cette direction. Google vient publier des variantes Gemma 4 QAT (Quantization-Aware Training), une approche différente mais complémentaire. Là où TurboQuant « compresse » la mémoire utilisée pendant l’inférence (le cache KV), la QAT réduit la taille des poids du modèle lui-même, en intégrant la compression directement dans la phase d’entraînement plutôt qu’après coup.

Le modèle apprend à rester précis malgré la compression, au lieu de la subir. Google annonce des performances proches du modèle original en bfloat16, avec une empreinte mémoire drastiquement réduite. Le plus petit modèle de la gamme, le Gemma 4 E2B (pour du texte uniquement), passe sous le 1 Go de RAM ce qui est plutôt bienvenu pour nos téléphones.

En synthèse

TurboQuant est une technologie qui permet aux modèles d’IA de consommer moins de mémoire lorsqu’ils traitent de grandes quantités d’informations, tout en améliorant les performances sur les longs contextes. Elle « compresse » les données temporairement stockées par l’IA afin qu’elles occupent moins d’espace en mémoire. Des approches comme la QAT de Google complètent cette évolution en réduisant la taille des modèles eux-mêmes :! Les 2 techniques sont cumulables et pointent dans la même direction.

Est-ce que la demande en mémoire va baisser ? Très probablement dans les Data Centers, où les besoins en VRAM par modèle pourraient se contracter significativement. À plus long terme, cela pourrait aussi détendre le marché grand public, où les pénuries ont fait grimper les prix des modules DDR5 et LPDDR5. À surveiller également, l’arrivée de CXMT (ChangXin Memory Technologies), fabricant chinois qui monte en puissance et pourrait peser sur les prix indépendamment de l’évolution des usages IA.

Les GAFAM sont morts, vive les MANGOS

10 juin 2026 à 18:30

Et si les GAFAM avaient déjà leur successeur ? Né sur X le 9 juin 2026, le mème « MANGOS » remplace les géants historiques par Meta, Anthropic, Nvidia, Google, OpenAI et SpaceX. Un acronyme rigolo, mais surtout révélateur d’un basculement de la tech.

Gemini en panne : l’IA de Google tourne dans le vide depuis ce midi

10 juin 2026 à 14:12

L'assistant conversationnel de Google connaît depuis le milieu de la journée ce mercredi un dysfonctionnement généralisé. Les utilisateurs signalent en masse des requêtes sans réponse, sans que Google n'ait pour l'heure reconnu l'incident.

Gemini en panne : l’IA de Google tourne dans le vide depuis ce midi

10 juin 2026 à 14:12

L'assistant conversationnel de Google connaît depuis le milieu de la journée ce mercredi un dysfonctionnement généralisé. Les utilisateurs signalent en masse des requêtes sans réponse, sans que Google n'ait pour l'heure reconnu l'incident.

Google Chrome : 74 vulnérabilités patchées, dont une faille zero-day déjà exploitée !

10 juin 2026 à 10:23

Mise à jour Google Chrome : 74 vulnérabilités corrigées, dont la CVE-2026-11645, une faille zero-day déjà exploitée. Voici comment vous protéger.

Le post Google Chrome : 74 vulnérabilités patchées, dont une faille zero-day déjà exploitée ! a été publié sur IT-Connect.

Google et Intel main dans la main sur les puces IA ? Tout ne serait pas aussi facile

Alors que l'annonce d'un contrat massif de 3 millions de puces entre Google et Intel agite le secteur de la tech, les analystes de JPMorgan tempèrent l'enthousiasme général. Selon eux, Intel ne fabriquerait pas réellement les processeurs, mais se contenterait de leur assemblage final, laissant la production stratégique entre les mains de son rival TSMC.

L’article Google et Intel main dans la main sur les puces IA ? Tout ne serait pas aussi facile est apparu en premier sur Tom’s Hardware.

full

thumbnail

Le nouveau Siri expliqué : cinq modèles maison, le vrai rôle de Google Gemini et des GPU Nvidia

9 juin 2026 à 09:55

AFM Core, AFM Core Advanced, AFM Cloud, ADM Cloud et AFM Cloud Pro : Apple ne lance pas un, mais cinq modèles d'IA. Contrairement à ce que beaucoup écrivent, la marque californienne ne se contente pas d'utiliser les modèles Gemini de Google pour son nouvel assistant Siri AI : la réalité est bien plus complexe. Numerama a assisté à plusieurs sessions techniques à Cupertino et vous explique tout.

Ne demandez pas à ChatGPT ou Gemini de restaurer une image vide, ou attendez-vous au pire

8 juin 2026 à 16:38

Un prompt repéré en mai 2026 sur X consiste à demander à ChatGPT de restaurer une image... sans joindre quoi que ce soit. Et les résultats sont tous plus étranges les uns que les autres.

Gemini piégé par de simples notifications : une attaque par injection de prompt a détourné l’assistant de Google

4 juin 2026 à 19:05

Dans un article publié le 3 juin 2026, des chercheurs de SafeBreach ont prouvé comment de simples notifications pouvaient suffire à manipuler Google Gemini. En exploitant le résumé vocal des messages, ils sont notamment parvenus à injecter des instructions invisibles, capables de tromper l’utilisateur à son insu.

Gemini piégé par de simples notifications : une attaque par injection de prompt a détourné l’assistant de Google

4 juin 2026 à 19:05

Dans un article publié le 3 juin 2026, des chercheurs de SafeBreach ont prouvé comment de simples notifications pouvaient suffire à manipuler Google Gemini. En exploitant le résumé vocal des messages, ils sont notamment parvenus à injecter des instructions invisibles, capables de tromper l’utilisateur à son insu.

Google lance Dreambeans une app qui transforme vos données personnelles en BD illustrée chaque matin

4 juin 2026 à 10:31

Le 3 juin 2026, Google Labs a lancé Dreambeans, une application expérimentale qui fouille vos mails, votre agenda et votre historique YouTube pendant que vous dormez pour vous livrer chaque matin une sélection d'histoires illustrées par IA.

❌
❌