Vue lecture

Il y a de nouveaux articles disponibles, cliquez pour rafraîchir la page.

Google lance Gemini Embedding 2, un modèle qui comprend texte, image, vidéo et audio en même temps

Google vient de lancer Gemini Embedding 2, son premier modèle d'embedding nativement multimodal. Texte, images, vidéo, audio et documents sont projetés dans un même espace vectoriel, ce qui permet de faire de la recherche sémantique croisée entre différents types de contenus.

Un seul modèle pour tout indexer

Jusqu'à présent, les modèles d'embedding se limitaient au texte. Vous vouliez indexer des images ou de la vidéo, il fallait un autre pipeline. Gemini Embedding 2 fait tout d'un coup : vous lui envoyez du texte, des images (jusqu'à 6), de la vidéo (jusqu'à 120 secondes) ou de l'audio (jusqu'à 80 secondes), et il vous renvoie un vecteur dans le même espace. Le modèle gère plus de 100 langues et prend en charge jusqu'à 8 192 tokens en entrée pour le texte.

Côté technique, le modèle utilise le Matryoshka Representation Learning, ce qui permet de choisir la taille des embeddings entre 128 et 3 072 dimensions. Google recommande 768 dimensions pour un bon compromis entre qualité et stockage, ce qui divise par quatre l'espace disque par rapport à la taille maximale.

Les tarifs et la concurrence

Le texte est facturé 0,20 dollar par million de tokens, avec un mode batch à moitié prix. Les images montent à 0,45 dollar, l'audio à 6,50 dollars et la vidéo à 12 dollars par million de tokens. Un palier gratuit est disponible pour tester.

Côté performances, Google affiche de bons scores sur les benchmarks MTEB : 69,9 en multilingue et 84,0 en code. Mais pour du texte seul, OpenAI reste bien moins cher avec son text-embedding-3-small à 0,02 dollar par million de tokens, soit dix fois moins.

Le modèle est disponible via l'API Gemini et Vertex AI, et compatible avec LangChain, LlamaIndex, Weaviate ou ChromaDB.

Le vrai argument de Google ici, c'est le multimodal. Si vous avez besoin d'indexer des catalogues produits avec photos et descriptions dans le même vecteur, ou de faire de la recherche dans des archives vidéo, il n'y a pas d'équivalent chez OpenAI pour le moment.

Mais pour du texte pur, la différence de prix est quand même importante. On attend de voir comment ça se comporte en production, et si les scores MTEB se confirment sur des cas d'usage réels.

Source : Blog Google

Apple réduit ses commissions sur l’App Store dans ce pays pour la première fois

Le fabricant californien a annoncé jeudi une baisse de ses frais prélevés auprès des développeurs chinois, dans un contexte de pression réglementaire croissante à Pékin.

L’article Apple réduit ses commissions sur l’App Store dans ce pays pour la première fois est apparu en premier sur Tom’s Hardware.

full

thumbnail

BetterEU veut passer toute la réglementation européenne au crible de l'IA

Un projet open source vient de lâcher une IA sur les 41 300 règlements européens adoptés depuis 1958. L'outil, qui tourne sur Grok 4.1, rend un verdict binaire pour chaque texte : à garder ou à supprimer. Les résultats défilent en direct sur bettereu.com.

41 300 textes passés à la moulinette

Le principe est assez bourrin. BetterEU prend chaque règlement européen, du plus ancien, publié en 1958, au plus récent publié il y a quelques semaines, et le soumet à Grok avec un prompt unique. L'IA doit trancher : KEEP ou DELETE.

Aucune nuance, pas de peut-être, juste un verdict sec. Le tout est diffusé en temps réel sur le site, avec un graphique interactif qui montre la progression année par année. Les données se rafraîchissent toutes les cinq secondes, et le coût de l'opération en dollars s'affiche en direct. Le code source est ouvert, le prompt aussi. N'importe qui peut aller vérifier comment l'IA raisonne.

La Commission veut aussi simplifier

Ce projet tombe à un moment où l'Union européenne elle-même reconnaît que sa réglementation est devenue un problème. La Commission a lancé en 2026 son programme de travail le plus dérèglementaire de son histoire : sur 47 initiatives prévues, 25 portent sur la simplification.

L'objectif affiché est de réduire la charge administrative des entreprises de 25 %, ce qui représenterait une économie de 37,5 milliards d'euros d'ici 2029. Et l'AI Act, qui entre en application en août 2026, fait lui-même l'objet d'un Digital Omnibus pour alléger ses propres règles. Quand le législateur simplifie la loi qui encadre l'IA pendant qu'une IA propose de simplifier les lois, on est en plein dans le sujet.

Un exercice quand même un peu limité

Évidemment, demander à une IA de décider si un règlement doit être gardé ou supprimé, c'est un peu court. Le droit européen est un empilement de textes qui se référencent les uns les autres, et supprimer un règlement peut en déstabiliser dix autres.

BetterEU ne tient pas compte de ces interdépendances, et le verdict binaire ne dit rien des articles à amender plutôt qu'à supprimer.

Mais l'exercice a quand même un intérêt : il rend visible l'ampleur du corpus réglementaire européen. 41 300 textes en soixante-sept ans, ça donne une idée de la masse à laquelle les entreprises et les citoyens sont soumis.

Bref, l’idée est rigolote, et on imagine bien le même traitement appliqué à la législation française. Par contre, le choix de Grok est peut-être un peu étonnant, vu qu'on soupçonne Musk de politiser son IA, pas dit qu'on ait les mêmes résultats avec Claude.

En tout cas, passer le Code général des impôts ou le Code du travail dans une IA pour relever les incohérences, les doublons et les articles devenus obsolètes, ça ferait probablement ressortir des choses assez intéressantes. BetterEU ne va pas remplacer un juriste, mais comme outil d'audit à grande échelle, c’est loin d’être con.

Source : BetterEU

Des mini-cerveaux cultivés en labo ont appris à résoudre un problème d'ingénierie

Des chercheurs de l'université de Californie à Santa Cruz ont réussi à entraîner des organoïdes cérébraux de souris pour qu'ils résolvent le problème du cart-pole, un test classique en intelligence artificielle. Les résultats sont prometteurs, mais ces petits cerveaux ont un gros défaut : ils oublient à chaque pause (un peu comme moi au collège).

Le cart-pole, un classique de l'IA confié à des neurones vivants

Le cart-pole, c'est un exercice bien connu en robotique et en IA : il faut maintenir un pendule en équilibre vertical sur un chariot mobile, un peu comme quand vous essayez de tenir un stylo debout sur le bout du doigt. En général, ce sont plutôt des algorithmes qui gèrent ce genre de tâches. Mais pour cette expérimentation, les équipes en charge du projet ont vouluvoir si des neurones purement biologiques pouvaient eux aussi s'en sortir.

Ils ont utilisé des organoïdes corticaux , des amas de tissu cérébral cultivés à partir de cellules souches de souris, et les ont connectés à un système d'électrophysiologie développé avec Maxwell Biosciences. L'inclinaison du pendule était traduite en signaux électriques envoyés aux neurones, et l'activité neuronale en retour servait à diriger le chariot vers la gauche ou la droite.

46 % de réussite

L'équipe a testé trois conditions. Sans retour d'information, les organoïdes ne réussissaient que dans 2,3 % des essais. Avec des signaux aléatoires envoyés à certains neurones, ça montait à 4,4 %. Mais quand les chercheurs ont utilisé un entraînement adaptatif, où les stimulations ciblaient les bons neurones en fonction des performances, le taux de réussite a grimpé à 46 %.

Ash Robbins résume ça assez bien : quand on choisit activement les stimuli d'entraînement, on peut modeler le réseau pour qu'il résolve le problème. L'étude, publiée dans Cell Reports en février 2026, est la première démonstration rigoureuse d'un apprentissage dirigé vers un objectif chez des organoïdes cérébraux.

Un problème de mémoire un peu contrariant

Là où ça coince, c'est la mémoire. Après 15 minutes d'exercice sur le cart-pole, les organoïdes se reposent 45 minutes. Et au retour, leurs performances retombent au niveau de départ. Aucune consolidation de l'apprentissage n'a été observée, ce qui veut dire que ces neurones apprennent sur le moment mais ne retiennent rien.

David Haussler précise d'ailleurs que l'objectif n'est pas de créer une forme d' intelligence artificielle biologique , mais de mieux comprendre comment les maladies neurologiques perturbent les mécanismes d'apprentissage du cerveau.

C'est quand même assez spectaculaire de voir un amas de neurones de souris arriver à équilibrer un pendule virtuel, même avec un taux de 46 %. Bon, on est très loin d'un cerveau fonctionnel, et le fait qu'ils oublient tout après une sieste de 45 minutes montre bien qu'il manque des mécanismes de consolidation que possèdent les vrais cerveaux.

Mais pour la recherche sur des maladies comme Alzheimer ou Parkinson, pouvoir observer en temps réel comment un réseau neuronal apprend et oublie dans un environnement contrôlé, c'est un outil qui pourrait changer pas mal de trucs à l’avenir.

Source : Science Alert

SEO Poisoning - Mon site se fait attaquer depuis un an

Le SEO poisoning, vous connaissez ?

C'est quand votre référencement se fait flinguer parce que votre site se retrouve associé à des sites de casino, de porno et de téléchargement illégal. Et devinez quoi... ça m'arrive depuis bientôt un an !

Tout a commencé l'année dernière quand un nom de domaine reprenant mon pseudo a été enregistré depuis la Chine. Un clone quasi parfait de korben.info, avec tout mon contenu aspiré, sauf que tous les liens avaient été remplacés par des redirections frauduleuses. Mon Patreon, mon Twitter, ma newsletter, mes liens Twitch... tout renvoyait vers des trackers douteux. En fait, ça a été fait via un service de clonage de sites à quelques yuans par mois (genre 50 yuans, soit 6 euros), capable d'aspirer l'intégralité des pages HTML, CSS, images et même l'ID Google Analytics. Sympa !

Hasard du scrapping, ils ont chopé ma version spéciale Pluribus que j'avais mise en ligne à l'époque.

Sur le coup, quand je m'en suis rendu compte, j'ai signalé le truc au registrar et j'ai attendu. Naïvement, je pensais que ça resterait un cas isolé. Par contre, attention... c'était juste l'apéro.

Car en décembre, ça s'est sérieusement accéléré. D'un coup, c'est pas un mais plusieurs réseaux distincts de sites qui se sont mis à publier du contenu m'associant à tout et n'importe quoi. Je vous parle de dizaines et de dizaines de sites, des .fr pour la plupart, montés de toute pièce avec du contenu bidon. Et là, bienvenue dans le monde merveilleux des PBN.

Un PBN, c'est un Private Blog Network. En gros, un ensemble de sites web qui ont l'air indépendants mais qui sont contrôlés par la même personne. À la base, ça sert à créer des backlinks pour faire monter un site dans les résultats de référencement naturel . Ça peut être utilisé de manière plus ou moins légitime pour booster sa visibilité. Mais ça peut aussi servir à démolir celle des autres, en les noyant sous des liens toxiques, en les mélangeant avec des sites de casino en ligne, de contenus pour adultes ou de téléchargement illégal. Et c'est exactement ce qui arrive à mon site en ce moment.

Concrètement, dans mon cas, ça fonctionne de deux manières. La première, c'est du cloaking. Ces sites présentent à Googlebot du contenu qui reprend mes meta descriptions, mon nom, mon contenu... sauf que quand un vrai visiteur clique dessus depuis Google, il tombe sur une fausse page RedTube. Du porno, quoi. L'idée c'est que Google finisse par associer korben.info à du contenu pour adultes. La deuxième technique, c'est de noyer mon nom dans du contenu qui n'a rien à voir avec la tech. Des articles, des liens vers des casinos... Le but c'est que Google se dise "ah mais en fait korben.info c'est pas un média tech", et que ma thématique soit complètement diluée dans les résultats de recherche.

Du coup, depuis 4 mois, mon quotidien c'est ça : contacter Google pour signaler les domaines frauduleux, écrire aux registrars pour faire fermer les noms de domaine, relancer les hébergeurs pour couper les serveurs. À vrai dire, entre les mails aux registrars, les formulaires abuse et les captures d'écran pour les dossiers, je passe 2-3 heures par jour là-dessus au lieu d'écrire des articles. J'ai même déposé des signalements auprès de la police. Première fois en 20 ans de blog que j'en arrive là !

Heureusement, à force de creuser, mes capacités en OSINT m'ont permis de cartographier tout le réseau : les connexions entre les sites, les gens qui se trouvent derrière... j'ai tout. Mais tant que les procédures sont en cours, je garde ça pour moi. Je ne peux pas vous mettre les captures d'écran les plus croustillantes de toute cette opération dont je suis la victime, j'en suis désolé...

Et le problème, c'est que tous les jours, y'a des nouveaux qui apparaissent. Des .fr, des .site, des .website, des .online... Dans mon fichier disavow.txt sur la Search Console de Google, j'ai inscrit +93 domaines à rejeter.

Le disavow, pour ceux qui connaissent pas, c'est un fichier que vous soumettez à Google pour lui dire "ces liens qui pointent vers mon site, ignore-les, c'est pas moi". Google dit que ses algorithmes détectent et ignorent déjà la plupart des liens toxiques automatiquement, mais le disavow reste une précaution supplémentaire. Sauf que quand vous voyez la liste s'allonger tous les jours, ça rassure pas des masses.

Vous le savez, le SEO c'est pas trop le domaine dans lequel je brille . Du coup, me retrouver sur mon ordi à éplucher des rapports WHOIS, des logs et des exports CSV de backlinks toxiques, c'est vraiment pas mon kiff. Et franchement, ça me fait flipper parce que mon site, c'est 20 ans de boulot et si demain il se fait blacklister ou noyer dans du contenu pourri, je perds une part de mon trafic... voire plus. Et comme Korben c'est littéralement ma vie, mon identité, c'est tout ce que j'ai.

Le truc dingue aussi, c'est que ces techniques datent du début des années 2010. C'est du old school mais bon, on s'y fait pas. J'ai l'impression de vider la mer avec une cuillère. Le problème c'est que ça ne s'arrête jamais. Vous en fermez 5, il en apparaît 10 !!!

Maintenant, si vous êtes dans le même cas, voici ce que vous pouvez faire. D'abord, surveillez vos backlinks via la Search Console ou des outils comme Ahrefs .

Attention, ne regardez pas forcement que les nouveaux liens, vérifiez aussi les anciens qui auraient pu changer de destination. Si vous repérez des domaines louches qui pointent vers votre site, créez un fichier disavow.txt et soumettez-le à Google.

Ensuite, signalez les sites frauduleux aux registrars (les infos sont dans le WHOIS) et aux hébergeurs. Et si c'est grave, n'oubliez pas le signalement auprès de la police ou de la gendarmerie via cybermalvaillance. Ça crée une trace officielle, même si les suites judiciaires prennent du temps.

Bref, si parmi vous il y en a qui veulent me mettre un lien vers korben.info depuis leur site ou leur blog, reprendre un de , un mot sur les réseaux... ça m'aiderait. Chaque backlink sain aide à contrebalancer la merde ❤️.

Artémis II : toutes les dates possibles pour le grand retour autour de la Lune

Le décollage d’Artémis II se fait décidément désirer. Après un premier report à la suite d'un incident technique lors des derniers tests de la fusée en février dernier, les fenêtres de tir du mois de mars n'ont pas pu être exploitées. La mission habitée vers la Lune est donc de nouveau décalée. La Nasa vise désormais un lancement pour le mois d'avril 2026, avec l'ajout d'une nouvelle date.

❌