Numerama
L’assistant de réparation d’iFixit est tellement mignon qu’il donne envie de tout réparer
9 décembre 2025 à 17:41

L’assistant de réparation d’iFixit est tellement mignon qu’il donne envie de tout réparer

Par : Lisa Imperatrice

9 décembre 2025 à 17:41

La plateforme de réparation en ligne iFixit signe le retour de son application iOS, dix ans après le bannissement de la précédente sur l'App Store. Elle y introduit « FixBot », un nouvel assistant de réparation à base d’IA.

Korben
3 ans d'audits cybersécu et finalement, c'est une IA qui trouve la faille en 4 jours
9 décembre 2025 à 14:56

3 ans d'audits cybersécu et finalement, c'est une IA qui trouve la faille en 4 jours

Korben

Par : Korben

9 décembre 2025 à 14:56

Personne ne s’en doutait, mais durant 3 ans, les communications entre la Terre et les sondes de la NASA étaient totalement vulnérables au piratage du moindre script kiddy ! Et personne n’était au courant évidemment, et aucun des multiples audits de code qui se sont succédé depuis 2022 n’avait mis à jour ce problème jusqu’à ce qu’une IA s’en mêle !

La faille découverte au bout de 4 jours d’analyse, se trouvait dans CryptoLib , une bibliothèque de chiffrement open source utilisée pour sécuriser les échanges entre les stations au sol et les satellites en orbite. Cette bibliothèque implémente le protocole SDLS-EP (Space Data Link Security Protocol - Extended Procedures) de la norme issue du CCSDS , qui est utilisé un peu partout dans le spatial, y compris pour des missions comme les rovers martiens ou le télescope James Webb.

Le souci donc c’est que ce code contenait une vulnérabilité d’injection de commande. En gros, des données non validées pouvaient être interpolées directement dans une commande shell et exécutées via system() sans aucune vérification. C’est le genre de faille basique qu’on apprend à éviter en première année de développement, sauf que là elle était planquée dans un code quand même bien critique…

C’est la startup AISLE , fondée par des anciens d’Anthropic, Avast et Rapid7, qui a été mandatée pour auditer le code et c’est comme ça que leur système de “cyber reasoning” basé sur l’IA s’est retrouvé à scanner la base de code. Résultat, une jolie faille débusquée par IA 3 ans après des dizaines d’audits et d’analyses humaines.

Bon, avant de paniquer sur une éventuelle chute de satellite en plein sur la tête de votre belle-mère, faut quand même nuancer un peu la chose… Pour exploiter cette faille, un attaquant aurait d’abord eu besoin d’un accès local au système, ce qui réduit significativement la surface d’attaque selon les chercheurs . Donc oui, j’ai abusé en intro avec mon histoire de script kiddy ^^ chè ! Mais quand même, on parle de satellites et de sondes spatiales qui valent des milliards de dollars donc si elle avait été exploitée, ça aurait fait mal à beaucoup de monde.

Et ce n’est pas la seule mauvaise nouvelle pour la sécurité spatiale cette année puisqu’en août dernier, 2 chercheurs allemands de VisionSpace Technologies, Milenko Starcik et Andrzej Olchawa, ont présenté, lors des confs Black Hat USA et DEF CON à Las Vegas, pas moins de 37 vulnérabilités découvertes dans l’écosystème spatial . Sans oublier Leon Juranic de ThreatLeap qui a trouvé diverses failles plus tôt dans l’année.

Le Core Flight System (cFS) de la NASA, ce framework open source déployé sur des missions comme le James Webb ou le lander lunaire Odysseus d’Intuitive Machines, contenait également 4 failles critiques. Deux bugs de déni de service, une Path Traversal, et une vulnérabilité d’exécution de code à distance (RCE). Milenko Starcik a déclaré avoir trouvé des vulnérabilités permettant par exemple de crasher tout le logiciel de bord avec un simple message distant non authentifié .

Lors d’une démo, ils ont montré qu’ils pouvaient envoyer une commande à un satellite pour activer ses propulseurs et modifier son orbite, sans que le changement de trajectoire apparaisse immédiatement sur l’écran du contrôleur au sol. Imaginez le bordel si quelqu’un faisait ça pour de vrai !!

CryptoLib elle-même était criblée de failles : 4 dans la version utilisée par la NASA, 7 dans le package standard dont 2 critiques. Et le système de contrôle de mission Yamcs développé par la société européenne Space Applications Services et utilisé notamment par Airbus présentait aussi 5 CVE permettant une prise de contrôle totale. Sans oublier OpenC3 Cosmos, un autre système utilisé pour les stations au sol, qui comptait à lui seul, 7 CVE incluant de l’exécution de code à distance.

Heureusement les amis, toutes ces horribles vulnérabilités ont été corrigées et la NASA prépare même une mise à jour majeure du cFS pour bientôt avec de meilleures fonctionnalités de sécurité, le support de l’IA et des capacités d’autonomie améliorées.

AISLE affirme que leur outil peut examiner systématiquement des bases de code entières , signaler des patterns suspects et fonctionner en continu à mesure que le code évolue, bref, pour du code critique comme celui des systèmes spatiaux, c’est le top !

Encore une victoire de l’IA ^^

Source

Numerama
« Ça fait des années qu’on dit m**** à Spotify », ils suppriment leur musique de la plateforme et sont remplacés par un clone IA
9 décembre 2025 à 15:26

« Ça fait des années qu’on dit m**** à Spotify », ils suppriment leur musique de la plateforme et sont remplacés par un clone IA

Numerama

Par : Amine Baba Aissa

9 décembre 2025 à 15:26

En signe de protestation contre l'investissement du PDG de Spotify dans une entreprise de défense militaire spécialisée dans l'IA, les membres du groupe de rock australien King Gizzard & the Lizard Wizard ont décidé de retirer leur catalogue de la plateforme. Quelques mois après cette décision, un clone IA de leur musique enregistrait des dizaines de milliers d'écoutes.

Numerama
Nvidia va vendre ses puces H200 en Chine : comment expliquer le revirement de Donald Trump ?
9 décembre 2025 à 11:35

Nvidia va vendre ses puces H200 en Chine : comment expliquer le revirement de Donald Trump ?

Numerama

Par : Lisa Imperatrice

9 décembre 2025 à 11:35

Coup de théâtre dans la guerre des semi-conducteurs : Donald Trump a donné le 8 décembre 2025 son feu vert à l’exportation des H200 de Nvidia vers la Chine. Une ouverture inattendue, qui pourrait bien rebattre les cartes pour les deux camps.

Numerama
Les agents IA débarquent sur Chrome : Google abat sa dernière carte pour éviter les dérapages
9 décembre 2025 à 10:44

Les agents IA débarquent sur Chrome : Google abat sa dernière carte pour éviter les dérapages

Numerama

Par : Amine Baba Aissa

9 décembre 2025 à 10:44

Google a signalé la mise en place d'une nouvelle procédure de sécurité visant spécifiquement les risques liés à l'intégration imminente d'agents IA dans son navigateur Chrome. La solution à ces nouvelles menaces passera également par l'IA.

Cyberguerre
Les agents IA débarquent sur Chrome : Google abat sa dernière carte pour éviter les dérapages
9 décembre 2025 à 10:44

Les agents IA débarquent sur Chrome : Google abat sa dernière carte pour éviter les dérapages

Cyberguerre

Par : Amine Baba Aissa

9 décembre 2025 à 10:44

Google a signalé la mise en place d'une nouvelle procédure de sécurité visant spécifiquement les risques liés à l'intégration imminente d'agents IA dans son navigateur Chrome. La solution à ces nouvelles menaces passera également par l'IA.

GinjFo
Windows 11 et l’IA, Microsoft contraint de revoir ses objectifs
9 décembre 2025 à 07:27

Windows 11 et l’IA, Microsoft contraint de revoir ses objectifs

GinjFo

Par : Jérôme Gianoli

9 décembre 2025 à 07:27

Windows Un nouveau rapport révèle que Microsoft revoit ses ambitions à la baisse pour ses produits d’IA, faute d’utilisateurs. Google Gemini enregistre une croissance soutenue.

Cet article Windows 11 et l’IA, Microsoft contraint de revoir ses objectifs a été publié en premier par GinjFo.

Korben
Koharu - Le traducteur de mangas IA qui fait tout le boulot à votre place
8 décembre 2025 à 10:39

Koharu - Le traducteur de mangas IA qui fait tout le boulot à votre place

Korben

Par : Korben

8 décembre 2025 à 10:39

J’sais pas si vous lisez des mangas de temps en temps mais si vous êtes à jour, vous avez peut-être envie de lire la suite, mais malheureusement, souvent c’est pas encore traduit en français. Alors vous 3 solutions… soit vous patientez, soit vous apprenez le japonais… Soit, soit…

Soit vous installez Koharu, un logiciel de traduction de mangas propulsé par IA. C’est hyper bien foutu puisque ça détecte automatiquement les bulles de dialogue, ça lit le texte japonais via OCR, ça efface proprement le texte original avec de l’inpainting, ça traduit le tout avec un modèle de langage aux petits oignons et ça replaque le texte traduit dans la bubulle.

Tout ça en quelques clics, évidemment, sinon ce serait pas drôle !

Le projet est développé par mayocream et c’est du 100% Rust avec une interface Tauri. Pour ceux qui ne connaissent pas, Tauri c’est un peu l’équivalent d’Electron mais en plus léger et plus performant. Le moteur d’inférence utilisé, c’est Candle de HuggingFace, ce qui permet de faire tourner des modèles IA localement sans avoir besoin d’envoyer vos data dans le cloud.

Côté modèles, Koharu embarque plusieurs outils spécialisés. Pour la vision par ordinateur, on a comic-text-detector pour repérer les bulles (avec le petit modèle custom de mayocream ), manga-ocr pour la reconnaissance de caractères et AnimeMangaInpainting pour effacer proprement le texte original. Pour la traduction, c’est vntl-llama3-8b-v2 ou Sakura-GalTransl-7B-v3.7 qui s’y collent et c’est sans galère puisque ces modèles se téléchargent automatiquement au premier lancement.

Et Koharu supporte évidemment l’accélération GPU donc si vous avez une carte NVIDIA, vous pouvez profiter de CUDA et pour les fans d’Apple Silicon avec un M1 à M5, Metal est également supporté. Bref, ça dépote et le logiciel gère aussi la mise en page verticale pour les langues CJK (Chinois, Japonais, Coréen), ce qui est plutôt indispensable quand on traduit des mangas.

Les sources sont dispo sur Github et y’a des binaires pour Windows et macOS directement sur la page des releases. Pour les autres plateformes, faudra compiler vous-même avec Rust et Bun.

Voilà, si vous rêvez de traduire ce manga obscur qui dort au fond d’un forum japonais, Koharu va vous plaire. Et un grand merci à Lorenper pour l’info !

Numerama
Quand l’IA fait n’importe quoi : l’expérience du gratte-ciel et du trombone
6 décembre 2025 à 15:33

Quand l’IA fait n’importe quoi : l’expérience du gratte-ciel et du trombone

Numerama

Par : Frédéric Prost

6 décembre 2025 à 15:33

building trombone

Une expérience relativement simple consistant à demander à une intelligence artificielle générative de comparer deux objets de tailles très différentes permet de réfléchir aux limites de ces technologies.

Korben
12 semaines de formation Machine Learning gratos sur GitHub (et en français svp !)
5 décembre 2025 à 11:07

12 semaines de formation Machine Learning gratos sur GitHub (et en français svp !)

Korben

Par : Korben

5 décembre 2025 à 11:07

Vous vous souvenez quand je vous avais parlé de la formation gratuite de Microsoft sur GitHub Copilot ? Hé bien ils remettent le couvert, mais cette fois c’est pour nous apprendre la science du Machine Learning from scratch ! Et c’est pas un petit tuto de 2h fait à l’arrache comme sur ma chaine Youtube… Non, c’est un bon gros programme complet en 12 semaines avec 26 leçons et tout ça dans la langue Gims.

Le repo s’appelle ML-For-Beginners et le truc cool c’est que Microsoft a choisi de se concentrer sur le Machine Learning “classique” avec Scikit-learn et pas du deep learning de richou qui demande des GPU à 3000 balles. Du coup c’est accessible à n’importe qui avec un laptop normal !

Leur programme couvre à peu près tout ce qu’il faut savoir pour débuter : Régression, classification, clustering, traitement du langage naturel, séries temporelles, et même un peu d’apprentissage par renforcement. Chaque leçon démarre par un quiz pour voir où vous en êtes, suivi de contenu avec des explications pas à pas, des challenges à faire, et un autre quiz de fin pour vérifier que vous avez bien tout capté.

Y’a même des “sketchnotes” (c’est à dire des résumés visuels) et des vidéos si vous êtes plus du genre à apprendre en regardant qu’en lisant . Et pour ceux qui préfèrent R à Python, y’a des versions alternatives des exercices en R Markdown .

La version française du README est dispo sur le repo et tout est traduit dans plus de 50 langues, du chinois à l’arabe en passant par le croate… Microsoft a automatisé la traduction via GitHub Actions, donc soyez souple d’esprit si vous croisez quelques phôtes…

L’approche pédagogique de cette formation est basée sur des projets concrets du genre prédire le prix des citrouilles, classifier des cuisines du monde (forcement, la française arrivera en premier ^^), analyser de la musique pour du clustering…etc. Bref, c’est un peu original !

Voilà si vous êtes en vacances ou en reconversion IA, pour commencer, il suffit de forker le repo et de le cloner sur votre machine.

Voilà, si vous avez toujours voulu comprendre comment fonctionne le Machine Learning sans vous taper des formules de maths pendant 6 mois ou vendre un rein pour un abonnement à un cours en ligne, c’est le bon moment je pense !

Merci Microsoft !

Korben
Plus de 50% du web serait écrit par l'IA... et alors ?
5 décembre 2025 à 10:44

Plus de 50% du web serait écrit par l'IA... et alors ?

Korben

Par : Korben

5 décembre 2025 à 10:44

Une étude de Graphite vient de sortir et annonce que plus de la moitié des articles publiés sur Internet seraient désormais générés par IA. C’est fou non ?

Pour arriver à cette conclusion Graphite a analysé 65 000 URLs via Common Crawl et utilisé un détecteur d’IA et c’est comme ça qu’ils ont découvert que depuis novembre 2024, les articles IA auraient dépassé les articles humains en volume.

Alors en route vers l’apocalypse de l’écriture humaine ?

Bon déjà, première question qui me vient c’est : Comment est-ce qu’ils ont fait pour détecter ça ? Ouais parce qu’à ma connaissance, les outils de détection d’IA, comment dire… c’est de la grosse merde en barre. C’est encore moins fiable qu’un grand modèle de langage (LLM) pas fiable.

J’imagine que ce qu’ils détectent, ce sont les articles générés par IA de manière basique, donc le genre de contenu où quelqu’un a tapé un prompt vite fait et a publié le résultat sans même le relire ou un bot qui publie à la chaîne. Donc pas de travail sur le style, pas d’angle éditorial, pas de valeur ajoutée, bref, du bon gros contenu SEO produit à la chaîne pour remplir des pages et grappiller du trafic Google.

Du coup, si on suit ce raisonnement, ce que l’étude nous dit vraiment c’est que 50% du contenu web actuel, c’est de la merde. Et là, je me pose une question : est-ce que ça change vraiment quelque chose par rapport à avant ?

Bah ouais parce qu’avant l’IA, on avait déjà les fermes SEO, les articles écrits par des rédacteurs payés au lance-pierre qui se copient les uns les autres, les textes sans âme rédigés pour plaire à l’algorithme plutôt qu’aux lecteurs ou juste attirer le chaland pour engranger de la thune Adsense. De mon point de vue, le web était déjà rempli de contenu médiocre et l’IA n’a fait qu’industrialiser le processus.

Ce qui a changé donc, c’est la quantité. On produit plus de merde, plus vite, mais cette merde existait déjà.

Par contre, je ne suis pas d’accord avec la vision apocalyptique de certains. Un texte bien travaillé avec l’IA devient impossible à distinguer d’un texte humain et dans certains cas, il peut même être meilleur. C’est mon avis, mais c’est pas rare qu’un texte retravaillé à l’aide de l’IA soit plus complet, plus documenté, plus creusé, avec moins d’erreurs (si c’est bien fait évidemment). Un rédacteur web payé pour pondre 10 articles par jour n’a pas le temps d’aller au fond des choses alors qu’avec l’IA comme outil d’accompagnement, il peut rapidement explorer plusieurs angles d’un sujet, intégrer différentes perspectives, aller plus loin dans la recherche et l’analyse.

Et je parle bien de contenu informatif ici, pas de création littéraire ou artistique. Parce que là, effectivement, c’est pas ouf… Mais pour expliquer un concept technique, présenter un outil, vulgariser une actu…etc., l’IA peut être un sacré accélérateur de qualité si on sait s’en servir.

Je pense donc que le vrai problème, c’est la production bête et méchante qui consiste à générer du texte sans relecture, sans vérification, sans apport personnel… je trouve ça con et dangereux. Dangereux parce que les hallucinations existent et on peut vite se retrouver à propager de fausses infos. Et ce foutu style générique IA n’apporte rien au lecteur… Aucun plaisir quoi…

Puis quand on sait que y’en a déjà pas mal d’entre vous qui ne lisent plus les contenus, mais se les font résumer avec Claude ou ChatGPT, je me dis qu’on gagnerait du temps de processeur si les fermes SEO / IA publiaient directement des résumés IA et basta ^^.

L’étude de Graphite montre également que les contenus IA sont surtout des guides pratiques, des actus formatées, des descriptions de produits… Bref, du contenu utilitaire où l’originalité n’a jamais été le critère numéro un. Ce n’est donc pas une invasion de l’IA dans la création, mais plutôt une automatisation d’un contenu fast-actu jetable qui existait déjà par ailleurs.

Ce qui est précieux dans ce contexte, c’est justement le style, la patte d’un auteur, une voix reconnaissable. C’est le genre de truc qu’un rédacteur pressé n’a jamais eu le temps de développer et qu’une IA générique ne peut pas inventer. Encore une fois c’est mon point de vue, mais les bons “rédacteurs web” sont ceux qui ont une vraie identité éditoriale et qui savent se démarquer de ce foutu “ton journalistique” qui nous endort tous…

Voilà, au final, le rôle de l’auteur ou du créateur de contenu reste le même, IA ou pas IA… C’est simplement de faire en sorte que son contenu soit lu et pour ça, il faut que ce soit agréable à lire, que ça apporte quelque chose, que ça fasse grandir / réfléchir le lecteur ou que ça le divertisse également ! Bref, que l’outil soit un stylo, un clavier ou un LLM, l’objectif ne change pas.

Donc si vous êtes tenté d’utiliser une IA pour la production de votre contenu, par pitié, n’automatisez rien, continuez à relire, à mettre votre “patte”, à y insérer votre réflexion et surtout, travaillez bien vos prompts pour sortir du style par défaut.

Source

Numerama
Google lance Gemini 3 Deep Think, un modèle si fort qu’il coûte 275 euros par mois
5 décembre 2025 à 09:27

Google lance Gemini 3 Deep Think, un modèle si fort qu’il coûte 275 euros par mois

Numerama

Par : Nicolas Lellouche

5 décembre 2025 à 09:27

Annoncé parallèlement à Gemini 3 Pro, mais pas totalement prêt fin novembre, le modèle Gemini 3 Deep Think est disponible depuis le 4 décembre. Il s'agit d'une version ultra-puissante du modèle de Google qui étudie plusieurs chaînes de raisonnement simultanément pour résoudre des problèmes complexes.

Numerama
Amazon retire les doublages IA de l’anime Banana Fish après la colère des fans
4 décembre 2025 à 17:33

Amazon retire les doublages IA de l’anime Banana Fish après la colère des fans

Numerama

Par : Eitanite Bellaiche

4 décembre 2025 à 17:33

Le lancement, fin novembre 2025, par Amazon de doublages d’anime générés par IA en anglais a déclenché une tempête, entre fans scandalisés, acteurs de doublage indignés et extraits moqués en masse sur les réseaux sociaux. Face aux critiques, la plateforme a rapidement fait marche arrière.

GinjFo
Sega mise sur l’IA dans ses jeux, mais avance avec une prudence assumée
4 décembre 2025 à 15:02

Sega mise sur l’IA dans ses jeux, mais avance avec une prudence assumée

GinjFo

Par : Jérôme Gianoli

4 décembre 2025 à 15:02

Sega Sega a confirmé vouloir intégrer l’intelligence artificielle dans le développement de ses jeux, tout en promettant une approche prudente pour préserver la créativité des équipes.

Cet article Sega mise sur l’IA dans ses jeux, mais avance avec une prudence assumée a été publié en premier par GinjFo.

Numerama
Euphoria saison 3 : date de sortie, casting… Tout savoir sur la fin de la série HBO
4 décembre 2025 à 09:35

Euphoria saison 3 : date de sortie, casting… Tout savoir sur la fin de la série HBO

Numerama

Par : Salammbô Marie

4 décembre 2025 à 09:35

Oui, la saison 3 d'Euphoria va enfin voir le jour. Date de sortie, casting, histoire... Voici tout ce que l'on sait sur cette suite très attendue, qui accueillera notamment la chanteuse Rosalía et l'actrice Sharon Stone.

Numerama
Euphoria saison 3 : HBO dévoile enfin de bonnes nouvelles pour les fans de la série culte
4 décembre 2025 à 09:11

Euphoria saison 3 : HBO dévoile enfin de bonnes nouvelles pour les fans de la série culte

Numerama

Par : Salammbô Marie

4 décembre 2025 à 09:11

Après plus de quatre ans d'attente, Euphoria va revenir sur nos écrans, avec une saison 3 qui a connu plusieurs retards de production. Mais cette fois, HBO a enfin de bonnes nouvelles à partager aux fans.

GinjFo
NVIDIA met fin au support Game Ready des GeForce GTX 900 et GTX 10
3 décembre 2025 à 15:19

NVIDIA met fin au support Game Ready des GeForce GTX 900 et GTX 10

GinjFo

Par : Jérôme Gianoli

3 décembre 2025 à 15:19

Pilotes graphiques GeForce Les GeForce GTX 900 et GTX 10 ne recevront plus de pilotes Game Ready. NVIDIA entame leur dépréciation mais continuera d’assurer des mises à jour de sécurité.

Cet article NVIDIA met fin au support Game Ready des GeForce GTX 900 et GTX 10 a été publié en premier par GinjFo.

GinjFo
Steam, la RTX 5070 s’impose mais les RTX 50 peinent à convaincre
3 décembre 2025 à 11:02

Steam, la RTX 5070 s’impose mais les RTX 50 peinent à convaincre

GinjFo

Par : Jérôme Gianoli

3 décembre 2025 à 11:02

Aorus GeForce RTX 5070 Master La RTX 5070 de NVIDIA grimpe dans le classement de l’enquête matérielle Steam et dépasse la RTX 4070. La série RTX 50 s’impose,

Cet article Steam, la RTX 5070 s’impose mais les RTX 50 peinent à convaincre a été publié en premier par GinjFo.

Korben
L'archéologie numérique - Fouiller là où plus personne ne cherche
3 décembre 2025 à 11:13

L'archéologie numérique - Fouiller là où plus personne ne cherche

Korben

Par : Korben

3 décembre 2025 à 11:13

Vous cherchez un vieux driver obscur de 2003, une démo technique jamais rééditée, ou ce vieux shareware DOS que personne n’a archivé ? Pas de souci, vous allez sur Google qui vous crache 3 liens morts et vous renvoie sur Reddit ou je ne sais où ailleurs… et vous abandonnez l’idée en vous disant que ça n’existe plus.

Mais sachez que pendant que vous galérez sur le web de surface, il existe tout un écosystème de réseaux zombies où les fichiers continuent de circuler comme si de rien n’était. eMule tourne toujours (oui), et des index FTP affichent carrément des milliards de fichiers encore dispo.

Bienvenue dans l’archéologie numérique pratique où aujourd’hui, on va apprendre à fouiller là où personne ne cherche plus. Et petit rappel utile, je vais vous parler ici uniquement de fichiers publics et légitimes (genre des drivers, des freewares, des docs, des archives de projets…etc), et pas de téléchargement illégal.

Mais avant de plonger dans ces réseaux, parlons un petit peu avant de sécurité parce que vous allez quand même télécharger des fichiers d’origines douteuses. Donc, utilisez une VM Linux légère (Ubuntu 22.04 LTS dans VirtualBox, ou une install minimal), avec un VPN avec kill-switch activé, un antivirus avec scan automatique, et un gestionnaire de téléchargement comme JDownloader2 avec des filtres activés.

Alors, pourquoi isoler sa machine AVANT de télécharger, me direz-vous ?

Hé bien parce qu’un fichier vérolé dans une VM, vous effacez la VM. Alors qu’un fichier vérolé sur votre machine principale, vous commencez à négocier avec votre week-end.

On commence donc par le web indexé étendu. Google indexe beaucoup de choses c’est vrai, mais pas tout (et pas partout). Et les opérateurs de recherche, c’est juste l’art de poser les bonnes contraintes : site:, guillemets, filetype:, intitle:… c’est documenté noir sur blanc chez Google donc je vous laisse lire tout ça , mais voici un exemple…

`site:vogonsdrivers.com "Voodoo3" driver`

ou

`site:catalog.update.microsoft.com "nom du périph"`

…pour tomber sur des pages que personne ne linke plus, mais qui existent encore. Et si vous voyez un “Index of /” sur un serveur, traitez ça comme un miroir public, mais surtout pas comme une invitation à aspirer tout le disque au risque de vous faire ban ou de voir le site se mettre en croix.

Bonus moteur de recherche rien que pour vous, Yandex peut parfois remonter des résultats différents (langues, régions, caches), mais oubliez le mythe “anti-DMCA magique” car Yandex retire aussi les liens qui vont vers du contenu sous copyright.

Voilà, utilisez plusieurs moteurs de recherche pour multiplier les angles de recherche. C’est un bon début.

Ensuite, Archive.org que vous connaissez tous, ne se limite pas aux vieilles versions de sites web. Le move le plus propre c’est de coller l’URL d’origine dans la Wayback Machine et vous remonterez le temps. Et si vous voulez jouer au chirurgien (URLs mortes, patterns, dates), il y a même une API CDX qui interroge l’index des captures, comme ça, un driver disparu en 2008 a peut-être été crawlé. Ou pas. Mais bon, ça prend 30 secondes à vérifier donc pourquoi se priver ?

Il restait aussi, c’est vrai, des dinosaures qui traînaient comme Uloz.to, longtemps cité comme “cimetière vivant”, mais qui malheureusement a annoncé la fin du partage public en 2023. En revanche, pour les vieux drivers et outils, vous avez des spots nettement plus propres tels que VOGONS Drivers (vintage hardware) et même le Microsoft Update Catalog pour des drivers connus.

Mais attention au piège des faux liens car sur certains vieux hébergeurs et pages louches, une grosse partie des résultats récents sont des redirections vers des sondages, des installateurs chelous ou des malwares. La règle c’est donc de privilégier les uploads anciens, de vérifier la taille du fichier, et de comparer avec une taille attendue. Par exemple, une ISO de 150 Ko, c’est un fake évident ! Et si un hash est disponible sur un forum, vérifiez-le (idéalement en SHA-256).

Bon, et maintenant on va passer à un truc vraiment puissant : l’archéologie FTP.

Mamont’s Open FTP Index et son moteur de recherche affichent plus de 4,29 milliards de fichiers listés. La plupart de ces serveurs ont été configurés dans les années 2000 et certains traînent encore en mode portes ouvertes du coup, on y trouve des sauvegardes de sites web morts, des miroirs de projets, des archives de docs, de vieilles photos et parfois des drivers perdus. C’est l’Internet Archive version anarchique et non-curée.

Vous pouvez par exemple chercher par extension (.zip, .rar, .7z), vous triez par date, et vous privilégiez les serveurs qui ressemblent à des miroirs publics (projets, universités, labos). Et si vous voulez un index avec stats visibles, y’a une alternative qui s’appelle NAPALM FTP Indexer et qui annonce environ 459 millions de fichiers répartis sur 1 437 serveurs FTP, avec une date d’update affichée.

Par contre, petit piège classique, y’a beaucoup de serveurs FTP publics qui bloquent l’accès web, mais acceptent les clients FTP. Donc si un index affiche un lien mort, essayez avec un client FTP en lecture seule (FileZilla, lftp…). Sur l’anonymous FTP, quand c’est activé. Le combo classique c’est user: anonymous (et parfois un mail en mot de passe, juste pour la forme). Et une fois encore, ce qui est accessible n’est pas toujours prévu pour être siphonné donc prenez uniquement ce dont vous avez besoin.

Et si vous cherchez des fichiers vraiment rares, on ne peut pas ignorer le P2P décentralisé. C’est vrai que tout le monde est passé au streaming, mais il reste une communauté silencieuse qui fait tourner eMule depuis 2004 et comme le réseau Kad (Kademlia) fonctionne sans serveur central côté recherche, ça change tout en termes de résilience. Aujourd’hui c’est plus niche, mais c’est justement là que des fichiers ultra-spécifiques survivent.

Si vous voulez rester clean, téléchargez eMule depuis la source officielle . Ah et sous Mac et Linux, y’a aMule aussi. Ça me rappelle tellement de souvenirs !

Bien sûr, les fichiers rares peuvent mettre des jours à arriver et contrairement à BitTorrent où vous voyez “50 seeders”, eMule affiche juste “En attente” donc télécharger un fichier rare demande de la patience. Laissez tourner, et vous verrez bien… c’est souvent la condition du succès.

BitTorrent avec BiglyBT , c’est l’évolution moderne de tout ça puisque ce client supporte DHT, et il a une intégration I2P et Tor via plugin. La fonctionnalité “Swarm Discoveries” sert également à découvrir des torrents.

Gnutella et Shareaza, par contre, c’est le réseau zombie. Très peu d’utilisateurs, mais certaines archives uniques n’existent que là donc si vous avez épuisé eMule et BitTorrent, tentez Shareaza en dernier recours.

Une technique un peu old-school mais qui marche encore (dans les cas légitimes) c’est également l’URL guessing. Donc littéralement deviner les URLs. Vous trouvez site.com/download/v1.0.zip, mais il vous faut la v0.9. Testez site.com/download/v0.9.zip, puis v1.1, v2.0. Beaucoup de projets laissent traîner des anciennes versions sans les lier publiquement.

Et pour finir, Usenet qui est payant c’est vrai, un peu complexe, mais parfois très efficace. Usenet existe depuis 1980 et fonctionne comme un système distribué de serveurs qui se répliquent des messages. Aujourd’hui, côté binaire, faudra passer par un provider (rétention, vitesse, complétion) comme Eweka ou Newshosting. Y’a aussi des indexeurs NZB pour chercher comme NZBgeek, ou NZBfinder.

Votre succès avec Usenet dépend de deux paramètres très terre-à-terre : la rétention (combien de temps c’est gardé) et la complétion (si toutes les pièces existent). Un fichier de 2010 peut être incomplet si des parties ont sauté alors si la complétion est basse, vous perdez votre temps. Par contre, si elle est haute, Usenet est un bulldozer.

Je le redis encore une fois, ne JAMAIS double-cliquer sur un .exe récupéré dans la nature. Vérifiez les signatures quand il y en a, comparez les hashes, et testez d’abord en VM isolée. Hé oui, VirusTotal peut aider, mais un upload n’est pas forcément privé donc évitez d’y envoyer des fichiers sensibles, et ne confondez pas 0 détection avec 0 risque.

Voilà, cet Internet profond dont je parle n’a rien à voir avec le dark web, Tor et tout ça… C’est simplement l’Internet d’avant Google qui continue de tourner en silence avec ses miroirs, ses archives, ses réseaux P2P sans tête, et ses serveurs oubliés. Tout ça fonctionne encore, mais personne ne les explore vraiment. Grâce à cet article, vous venez donc d’apprendre à fouiller ces cyber ruines où 99% des gens ne pensent jamais à chercher.

Pour aller plus loin dans l’archéologie numérique, j’ai compilé les sources qui m’ont aidé à préparer ce modeste guide : Lost Media Wiki Forum pour la communauté, Mamont et NAPALM FTP Indexer pour l’archéo FTP, Internet Archive + CDX API pour la Wayback, la doc eMule et Steiner et al. (IMC 2007) pour Kad, BiglyBT + Swarm Discoveries pour BitTorrent, VOGONS Drivers et Software Heritage pour la préservation propre.

Vue normale