Vue normale

Il y a de nouveaux articles disponibles, cliquez pour rafraîchir la page.
Hier — 21 décembre 2025Flux principal

Anna's Archive vient de sauvegarder la totalité de Spotify

Par : Korben
21 décembre 2025 à 10:25

Vous connaissez Anna's Archive , cette bibliothèque pirate qui sauvegarde tous les livres et articles scientifiques de l'humanité ? Hé bien ils viennent de s'attaquer à un nouveau chantier : sauvegarder Spotify (en tout cas le plus possible), soit 256 millions de morceaux + de la métadonnées, soit ~300 téraoctets de données !!

Anna's Archive se focalise normalement sur le texte (livres, et documents de recherche) parce que c'est ce qui a la plus haute densité d'information mais leur mission, c'est de préserver le savoir et la culture de l'humanité, et ça inclut donc aussi la musique. Et comme ils ont trouvé un moyen de scraper Spotify à grande échelle, ils se sont dit "Hey pourquoi pas ? On est des oufs".

Et ça donne la plus grande base de données de métadonnées musicales jamais rendue publique, avec 186 millions d'ISRCs uniques (ces codes qui identifient chaque enregistrement). Pour vous donner un ordre de grandeur, MusicBrainz n'en a que 5 millions. Niveau fichiers audio, ils ont aussi archivé environ 86 millions de morceaux, ce qui représente 99,6% des écoutes sur la plateforme (même si ça ne fait "que" 37% du catalogue total). Donc si vous écoutez un morceau au hasard sur Spotify, y'a 99,6% de chances qu'il soit dans l'archive.

Pour trier tout ça, ils ont utilisé la métrique "popularité" de Spotify qui va de 0 à 100. Ainsi, pour les morceaux avec une popularité supérieure à 0, ils ont récupéré quasiment tout en qualité originale (OGG Vorbis 160kbit/s) et pour les morceaux à popularité 0 (soit ~70% du catalogue, des trucs que personne n'écoute), ils ont réencodé en OGG Opus 75kbit/s pour gagner de la place… mais ils ne sont pas allés au bout de la longue traîne (trop de stockage pour trop peu de gain, et pas mal de contenu “bof” à popularité 0). Pour 99% des gens ça sonne pareil, même si je sais que les audiophiles vont me tuer dans les commentaires ^^.

En regardant les stats qu'ils ont produit à partir de ce qui a été scrappé, les 3 morceaux les plus populaires (Die With A Smile de Lady Gaga et Bruno Mars, BIRDS OF A FEATHER de Billie Eilish, et DtMF de Bad Bunny) ont été streamés plus de fois que les 20 à 100 millions de morceaux les moins populaires combinés. Bon, ils précisent aussi que la popularité est très dépendante du moment, donc ce top est un peu arbitraire mais ça montre à quel point la longue traîne est looooongue sur les plateformes de streaming...

Après le problème avec la préservation musicale actuelle (ce qu'on retrouve sur les sites de Torrent par exemple), c'est qu'elle se concentre uniquement sur les artistes populaires et la qualité maximale (FLAC lossless). Du coup, y'a plein de musique obscure qui ne survit que si une seule personne décide de la partager. Et ces fichiers sont souvent mal seedés. Et c'est pour ça que je trouve l'approche d'Anna's Archive plutôt pas mal car elle consiste à archiver tout ce qui existe (ou presque), même en qualité "suffisante", plutôt que de se concentrer sur un sous-ensemble en qualité parfaite.

Et comme vous vous en doutez, tout est distribué via des torrents, avec les métadonnées déjà disponibles (moins de 200 Go compressés) et les fichiers audio qui arrivent progressivement par ordre de popularité. Note la base s'arrête à juillet 2025, donc tout ce qui est sorti après peut ne pas être là (même s'il y a quelques exceptions).

Bref, c'est la première archive de préservation musicale vraiment ouverte, que n'importe qui peut mirrorer s'il a assez de stockage et voilà comment grâce à l'aide de tout le monde, le patrimoine musical de l'humanité sera protégé pour toujours des catastrophes naturelles, des guerres, des coupes budgétaires et autres désastres... Par contre, pas sûr que ça la protège de la boulimie des IA génératives.

Merci à Lilian pour l'info !

Source

À partir d’avant-hierFlux principal

L'archéologie numérique - Fouiller là où plus personne ne cherche

Par : Korben
3 décembre 2025 à 11:13

Vous cherchez un vieux driver obscur de 2003, une démo technique jamais rééditée, ou ce vieux shareware DOS que personne n’a archivé ? Pas de souci, vous allez sur Google qui vous crache 3 liens morts et vous renvoie sur Reddit ou je ne sais où ailleurs… et vous abandonnez l’idée en vous disant que ça n’existe plus.

Mais sachez que pendant que vous galérez sur le web de surface, il existe tout un écosystème de réseaux zombies où les fichiers continuent de circuler comme si de rien n’était. eMule tourne toujours (oui), et des index FTP affichent carrément des milliards de fichiers encore dispo.

Bienvenue dans l’archéologie numérique pratique où aujourd’hui, on va apprendre à fouiller là où personne ne cherche plus. Et petit rappel utile, je vais vous parler ici uniquement de fichiers publics et légitimes (genre des drivers, des freewares, des docs, des archives de projets…etc), et pas de téléchargement illégal.

Mais avant de plonger dans ces réseaux, parlons un petit peu avant de sécurité parce que vous allez quand même télécharger des fichiers d’origines douteuses. Donc, utilisez une VM Linux légère (Ubuntu 22.04 LTS dans VirtualBox, ou une install minimal), avec un VPN avec kill-switch activé, un antivirus avec scan automatique, et un gestionnaire de téléchargement comme JDownloader2 avec des filtres activés.

Alors, pourquoi isoler sa machine AVANT de télécharger, me direz-vous ?

Hé bien parce qu’un fichier vérolé dans une VM, vous effacez la VM. Alors qu’un fichier vérolé sur votre machine principale, vous commencez à négocier avec votre week-end.

On commence donc par le web indexé étendu. Google indexe beaucoup de choses c’est vrai, mais pas tout (et pas partout). Et les opérateurs de recherche, c’est juste l’art de poser les bonnes contraintes : site:, guillemets, filetype:, intitle:… c’est documenté noir sur blanc chez Google donc je vous laisse lire tout ça , mais voici un exemple…

`site:vogonsdrivers.com "Voodoo3" driver`

ou

`site:catalog.update.microsoft.com "nom du périph"`

…pour tomber sur des pages que personne ne linke plus, mais qui existent encore. Et si vous voyez un “Index of /” sur un serveur, traitez ça comme un miroir public, mais surtout pas comme une invitation à aspirer tout le disque au risque de vous faire ban ou de voir le site se mettre en croix.

Bonus moteur de recherche rien que pour vous, Yandex peut parfois remonter des résultats différents (langues, régions, caches), mais oubliez le mythe “anti-DMCA magique” car Yandex retire aussi les liens qui vont vers du contenu sous copyright.

Voilà, utilisez plusieurs moteurs de recherche pour multiplier les angles de recherche. C’est un bon début.

Ensuite, Archive.org que vous connaissez tous, ne se limite pas aux vieilles versions de sites web. Le move le plus propre c’est de coller l’URL d’origine dans la Wayback Machine et vous remonterez le temps. Et si vous voulez jouer au chirurgien (URLs mortes, patterns, dates), il y a même une API CDX qui interroge l’index des captures, comme ça, un driver disparu en 2008 a peut-être été crawlé. Ou pas. Mais bon, ça prend 30 secondes à vérifier donc pourquoi se priver ?

Il restait aussi, c’est vrai, des dinosaures qui traînaient comme Uloz.to, longtemps cité comme “cimetière vivant”, mais qui malheureusement a annoncé la fin du partage public en 2023. En revanche, pour les vieux drivers et outils, vous avez des spots nettement plus propres tels que VOGONS Drivers (vintage hardware) et même le Microsoft Update Catalog pour des drivers connus.

Mais attention au piège des faux liens car sur certains vieux hébergeurs et pages louches, une grosse partie des résultats récents sont des redirections vers des sondages, des installateurs chelous ou des malwares. La règle c’est donc de privilégier les uploads anciens, de vérifier la taille du fichier, et de comparer avec une taille attendue. Par exemple, une ISO de 150 Ko, c’est un fake évident ! Et si un hash est disponible sur un forum, vérifiez-le (idéalement en SHA-256).

Bon, et maintenant on va passer à un truc vraiment puissant : l’archéologie FTP.

Mamont’s Open FTP Index et son moteur de recherche affichent plus de 4,29 milliards de fichiers listés. La plupart de ces serveurs ont été configurés dans les années 2000 et certains traînent encore en mode portes ouvertes du coup, on y trouve des sauvegardes de sites web morts, des miroirs de projets, des archives de docs, de vieilles photos et parfois des drivers perdus. C’est l’Internet Archive version anarchique et non-curée.

Vous pouvez par exemple chercher par extension (.zip, .rar, .7z), vous triez par date, et vous privilégiez les serveurs qui ressemblent à des miroirs publics (projets, universités, labos). Et si vous voulez un index avec stats visibles, y’a une alternative qui s’appelle NAPALM FTP Indexer et qui annonce environ 459 millions de fichiers répartis sur 1 437 serveurs FTP, avec une date d’update affichée.

Par contre, petit piège classique, y’a beaucoup de serveurs FTP publics qui bloquent l’accès web, mais acceptent les clients FTP. Donc si un index affiche un lien mort, essayez avec un client FTP en lecture seule (FileZilla, lftp…). Sur l’anonymous FTP, quand c’est activé. Le combo classique c’est user: anonymous (et parfois un mail en mot de passe, juste pour la forme). Et une fois encore, ce qui est accessible n’est pas toujours prévu pour être siphonné donc prenez uniquement ce dont vous avez besoin.

Et si vous cherchez des fichiers vraiment rares, on ne peut pas ignorer le P2P décentralisé. C’est vrai que tout le monde est passé au streaming, mais il reste une communauté silencieuse qui fait tourner eMule depuis 2004 et comme le réseau Kad (Kademlia) fonctionne sans serveur central côté recherche, ça change tout en termes de résilience. Aujourd’hui c’est plus niche, mais c’est justement là que des fichiers ultra-spécifiques survivent.

Si vous voulez rester clean, téléchargez eMule depuis la source officielle . Ah et sous Mac et Linux, y’a aMule aussi. Ça me rappelle tellement de souvenirs !

Bien sûr, les fichiers rares peuvent mettre des jours à arriver et contrairement à BitTorrent où vous voyez “50 seeders”, eMule affiche juste “En attente” donc télécharger un fichier rare demande de la patience. Laissez tourner, et vous verrez bien… c’est souvent la condition du succès.

BitTorrent avec BiglyBT , c’est l’évolution moderne de tout ça puisque ce client supporte DHT, et il a une intégration I2P et Tor via plugin. La fonctionnalité “Swarm Discoveries” sert également à découvrir des torrents.

Gnutella et Shareaza, par contre, c’est le réseau zombie. Très peu d’utilisateurs, mais certaines archives uniques n’existent que là donc si vous avez épuisé eMule et BitTorrent, tentez Shareaza en dernier recours.

Une technique un peu old-school mais qui marche encore (dans les cas légitimes) c’est également l’URL guessing. Donc littéralement deviner les URLs. Vous trouvez site.com/download/v1.0.zip, mais il vous faut la v0.9. Testez site.com/download/v0.9.zip, puis v1.1, v2.0. Beaucoup de projets laissent traîner des anciennes versions sans les lier publiquement.

Et pour finir, Usenet qui est payant c’est vrai, un peu complexe, mais parfois très efficace. Usenet existe depuis 1980 et fonctionne comme un système distribué de serveurs qui se répliquent des messages. Aujourd’hui, côté binaire, faudra passer par un provider (rétention, vitesse, complétion) comme Eweka ou Newshosting. Y’a aussi des indexeurs NZB pour chercher comme NZBgeek, ou NZBfinder.

Votre succès avec Usenet dépend de deux paramètres très terre-à-terre : la rétention (combien de temps c’est gardé) et la complétion (si toutes les pièces existent). Un fichier de 2010 peut être incomplet si des parties ont sauté alors si la complétion est basse, vous perdez votre temps. Par contre, si elle est haute, Usenet est un bulldozer.

Je le redis encore une fois, ne JAMAIS double-cliquer sur un .exe récupéré dans la nature. Vérifiez les signatures quand il y en a, comparez les hashes, et testez d’abord en VM isolée. Hé oui, VirusTotal peut aider, mais un upload n’est pas forcément privé donc évitez d’y envoyer des fichiers sensibles, et ne confondez pas 0 détection avec 0 risque.

Voilà, cet Internet profond dont je parle n’a rien à voir avec le dark web, Tor et tout ça… C’est simplement l’Internet d’avant Google qui continue de tourner en silence avec ses miroirs, ses archives, ses réseaux P2P sans tête, et ses serveurs oubliés. Tout ça fonctionne encore, mais personne ne les explore vraiment. Grâce à cet article, vous venez donc d’apprendre à fouiller ces cyber ruines où 99% des gens ne pensent jamais à chercher.

Pour aller plus loin dans l’archéologie numérique, j’ai compilé les sources qui m’ont aidé à préparer ce modeste guide : Lost Media Wiki Forum pour la communauté, Mamont et NAPALM FTP Indexer pour l’archéo FTP, Internet Archive + CDX API pour la Wayback, la doc eMule et Steiner et al. (IMC 2007) pour Kad, BiglyBT + Swarm Discoveries pour BitTorrent, VOGONS Drivers et Software Heritage pour la préservation propre.

P2P Media Loader - Le retour discret de BitTorrent dans votre navigateur

Par : Korben
13 novembre 2025 à 10:22

BitTorrent c’était le diable dans les années 2000. Y’a eu des procès, des fermetures de trackers, et une guerre totale contre le piratage . Mais ça reste quand même une belle techno, notamment pour certaines plateformes de streaming un peu niche et solutions d’entreprise qui s’en servent discrètement afin d’économiser des millions en frais de CDN.

Car oui, avec le P2P, c’est vous qui payez la bande passante (en partie) ^^.

P2P Media Loader , c’est son nom est donc une lib JavaScript open source qui utilise WebRTC pour faire du streaming vidéo peer-to-peer directement dans votre browser. Vous regardez une vidéo, votre navigateur se connecte à d’autres viewers et vous échangez des segments vidéo entre vous. En gros, c’est comme BitTorrent, mais en version HTML5.

P2P Media Loader est donc la solution parfait pour réduire les coûts de bande passante des plateformes de streaming. Et tout ça de manière totalement transparente !

Techniquement, ça repose donc sur WebRTC et des trackers (comme BitTorrent) qui permettent aux navigateurs de se trouver entre eux ( y’a une démo ici ). Le projet utilise le protocole de signalisation de WebTorrent, ce qui veut dire que vous pouvez utiliser des trackers publics pour débuter, ou installer votre propre tracker si vous voulez gérer des gros volumes.

Et là, ça devient vraiment intéressant niveau scalabilité car avec un petit VPS à 3,50 €/mois et le tracker wt-tracker , vous pouvez gérer jusqu’à 20 000 viewers en simultané. Et si vous passez sur Aquatic (un tracker écrit en Rust), un serveur dédié 8 cœurs à 10-30€/mois peut tenir une charge de 100 000 viewers en simultané. Et si vous êtes vraiment radin (coucou les Auvergnats), Oracle Cloud offre un tier gratuit avec 4 cœurs ARM et 24 Go de RAM qui peut gérer des pics jusqu’à 100k peers sans rien débourser.

Et pour aller au-delà du million de viewers, il faudra passer sur du sharding (découpage en plusieurs trackers) avec différentes stratégies… Soit par contenu, soit par région géographique, soit par hash… Bref, des techniques classiques de distribution de charge, mais appliquées au P2P.

Le truc cool, je trouve c’est que ça fonctionne aussi bien pour du live que pour de la VOD, et même sur les apps mobiles iOS et Android. D’ailleurs, des projets comme PeerTube l’utilisent déjà pour réduire leurs coûts d’hébergement.

Bref, votre browser devient un mini-CDN en tout discrétion et ça permet aux personnes qui montent des infras de streaming, d’économiser de la thune.

Merci à Letsar pour le partage !

❌
❌