Vue normale

Il y a de nouveaux articles disponibles, cliquez pour rafraîchir la page.
À partir d’avant-hierFlux principal

Perplexity AI se fait choper la main dans le sac avec ses bots masqués qui contournent les règles

Par : Korben
4 août 2025 à 17:09

Perplexity AI s’est fait épingler par Cloudflare, pris la main dans le sac à contourner allègrement les règles du web avec leurs bots masqués. Et le plus fort dans tout ça c’est qu’ils nient tout en bloc.

L’affaire a éclaté quand Cloudflare, qui s’occupe d’un cinquième du trafic internet mondial, a décidé de fouiner un peu dans les pratiques suspectes de certains bots IA. Et le verdict est tombé assez rapidement : Perplexity a recours à des crawlers furtifs qui se font passer pour de véritables navigateurs afin de s’emparer du contenu des sites web, même lorsque les propriétaires ont dit non par le biais du fameux fichier robots.txt.

Ce qui rend cette histoire encore plus énervante, c’est la technique utilisée. Plutôt que d’employer leur user agent officiel “PerplexityBot”, les bots se déguisent en Chrome sur Windows 10.

Cloudflare a mené ses propres expériences pour prouver la manœuvre. Ils ont conçu un site web accessible uniquement aux vrais user agents Chrome et Firefox, tout en bloquant explicitement PerplexityBot via le robots.txt. Les bots officiels de Perplexity sont bien arrêtés, mais étrangement, quand un utilisateur fait une requête sur Perplexity.ai, le contenu est tout de même récupéré.

Comment ? Et bien grâce à des crawlers masqués, utilisant des ASN (Autonomous System Numbers) différents et des user agents trafiqués.

La défense de Perplexity ? Un véritable morceau de bravoure. Leur PDG, Aravind Srinivas, affirme qu’ils ne contournent pas le robots.txt, mais qu’ils recourent à des “fournisseurs tiers” pour le crawling. En gros, “C’est panoupanous, c’est les autres.” Sauf qu’il ne veut pas révéler l’identité de ces mystérieux partenaires, prétextant un accord de confidentialité. Pratique, non ?

Le problème dépasse largement le cadre de Perplexity car Wired et le développeur Robb Knight avaient déjà mené l’enquête en juin 2024 et découvert des indices similaires. Amazon Web Services a même lancé une investigation pour vérifier si Perplexity bafoue leurs conditions d’utilisation. Et en juin 2025, la BBC a menacé de poursuites judiciaires, exigeant que Perplexity cesse de scraper leur contenu et efface toutes les données collectées.

Pour situer l’ampleur du phénomène, Cloudflare a déterminé que les bots IA représentent désormais 5% de tout le trafic bot identifié. OpenAI avec GPTBot est en tête, suivi de… PerplexityBot en neuvième position. Mais ça, c’est uniquement pour ceux qui jouent cartes sur table. Combien passent sous le radar avec des identités truquées ?

La technique de contournement est d’ailleurs assez rusée car quand vous demandez à Perplexity d’explorer une URL spécifique, leur système prétend agir “au nom de l’utilisateur”, comme si vous copiez-collez vous-même le contenu. Sauf qu’en réalité, c’est un bot automatisé qui s’en charge, en utilisant des headless browsers pour paraître plus légitime.

TollBit, une startup spécialisée dans les accords de licence IA, a révélé que plus de 50 sites web choisissent délibérément d’ignorer le protocole robots.txt. Et surprise, selon une enquête de Business Insider, OpenAI et Anthropic (les créateurs de Claude) figureraient parmi eux. Mais au moins, ils ne se cachent pas derrière des user agents falsifiés.

Ce qui m’agace vraiment dans cette histoire, c’est l’hypocrisie ambiante. D’un côté, ces entreprises IA nous vendent du rêve sur l’éthique et la transparence et de l’autre, elles emploient des méthodes dignes de hackers des années 2000 pour aspirer du contenu sans permission. Et pendant ce temps, les créateurs de contenu se retrouvent pillés sans compensation.

Cloudflare propose bien quelques solutions pour se protéger, notamment leur outil AI Bots qui permet de gérer finement l’accès des différents crawlers IA. Ils ont aussi mis au point un “Bot Score” qui évalue la légitimité du trafic sur une échelle de 1 à 99. Plus le score est bas, plus y’a de chances que ce soit un bot. Les crawlers masqués de Perplexity obtiennent généralement un score en dessous de 30.

Donc, si vous gérez un site web, je vous recommande vivement de scruter vos logs. Repérez les schémas suspects du genre une même IP qui enchaîne les requêtes, des user agents identiques mais aux comportements différents, ou des accès à des URLs jamais publiées.

Quoiqu’il en soit, si même les plus grandes entreprises IA ne respectent pas des règles basiques comme le robots.txt, qu’est-ce qui les empêchera demain de franchir d’autres limites ?

C’est bien dommage, je trouve…

Source

La dissonance cognitive des anti-IA qui piratent

Par : Korben
4 août 2025 à 09:35

Édit du 5/08/20 : Pour ceux qui n’auraient pas compris, je n’ai jamais changé de position concernant le piratage. Je suis toujours pro-partage de la culture car je pense qu’elle a des effets très positifs. Et je suis aussi pro-IA car je pense que cela a aussi des effets positifs sur la création. Je me suis surement mal exprimé mais ce que je dénonce dans cet article, c’est simplement l’hypocrisie de ceux qui sont anti-IA au nom des artistes tout en piratant… des artistes. Choisissez votre camp, mais soyez cohérents car là votre posture, de mon point de vue, c’est : “You wouldn’t use AI to generate a car?”.

Ces dernières années, la dissonance cognitive frappe fort car tenez-vous bien, j’ai découvert qu’il existait des anti-IA qui militaient activement entre deux épisodes piratés de Dr Who. Hé oui, c’est le paradoxe moral de notre époque, à savoir défendre les droits d’auteur tout en ayant 2 To de films illégaux sur son disque dur.

Attention, je ne dis pas que pirater un film = entraîner une IA sur des millions d’œuvres. Je parle de l’incohérence morale de ceux qui brandissent l’argument du droit d’auteur contre l’IA tout en le piétinant allègrement par ailleurs.

D’un côté, il y a donc une indignation face aux IA génératives qui s’entraînent sur des œuvres protégées et de l’autre, la normalisation totale du piratage de contenus.

Les deux pratiques utilisent le travail des autres sans permission, mais bizarrement, une seule déclenche l’outrage moral. Ce que j’aimerai aborder dans cet article c’est donc cette dissonance cognitive / ce malaise mental qui se produit quand nos actions contredisent nos valeurs. Les psychologues qui étudient le piratage ont même identifié des “techniques de neutralisation” qu’on utilise pour justifier nos contradictions du genre : “C’est pas pareil”, “Les studios sont riches”, “Je paierais si c’était moins cher”… Ça vous rappelle quelque chose, non ^^ ?

Les deux pratiques posent des questions éthiques légitimes car comme je vous l’expliquais dans mon précédent article, l’IA générative utilise des millions d’œuvres pour créer du contenu qui peut directement concurrencer les artistes originaux. Même si c’est totalement faux, on entend souvent dire que le piratage priverait aussi les créateurs de revenus direct. C’est le même argument qui est repris par les opposants à l’IA, bizarrement… Pourtant, si je suis cette logique, dans les deux cas, on profiterait du travail des autres sans compensation.

Mais il y a quand même des nuances importantes car l’IA transforme, recrée, et elle produit quelque chose de nouveau (même si c’est discutable), et le piratage, c’est de la consommation culturelle pure. L’un est légal dans certains contextes (le fair use reste quand même assez flou), et l’autre est clairement illégal partout. L’un démocratise la création, l’autre ne fait que redistribuer l’existant.

Et puis il y a l’aspect financier qu’on ne peut pas ignorer. Dans les deux écosystèmes, on retrouve les mêmes acteurs : les “dealers” et les consommateurs. Côté IA, OpenAI, Anthropic ou Midjourney se font des milliards.

Côté piratage, les plateformes de streaming illégal monétisent via la pub et les abonnements premium. Les deux business models exploitent le travail des créateurs pour générer du profit. Encore une fois, l’un est légal, l’autre non mais fondamentalement, c’est la même logique capitaliste qui s’applique. Quant aux utilisateurs finaux, qu’ils piratent un film ou utilisent ChatGPT pour éviter de payer un rédacteur, l’objectif reste le même : faire des économies sur le dos des créateurs.

La vraie hypocrisie, c’est donc de prétendre qu’on défend les artistes tout en piratant leur travail.

Pour être clair, je ne condamne pas le piratage qui a beaucoup de bienfaits. Je pointe simplement du doigt ceux qui utilisent l’argument du “vol” contre l’IA tout en piratant eux-mêmes. Si vous assumez que le partage de la culture est légitime (comme moi), alors soyez cohérents et acceptez que l’IA fasse pareil.

Ainsi, si vous téléchargez illégalement la dernière série de Netflix tout en critiquant Midjourney, vous faites partie du problème que vous dénoncez.

L’impact économique est évidemment débattu car certains argumentent que les deux pratiques affaiblissent l’économie créative mais d’autres (dont je fais partie) soutiennent que le piratage a paradoxalement forcé l’innovation, favorisé la culture…etc créant finalement plus de valeur. L’IA générative pourrait avoir un effet similaire, destructeur à court terme mais potentiellement transformateur à long terme. On verra bien…

Bref, pour certains, le piratage est un acte de résistance contre les monopoles du divertissement, tandis que d’autres voient l’IA comme un accès à tous à la création. Et bien sûr, les deux camps utilisent des justifications morales pour des actes reconnus comme ambigus. C’est humain c’est sûr, mais c’est incohérent. Ainsi, ces mêmes personnes qui s’insurgent contre le “vol” de styles artistiques par l’IA n’ont visiblement aucun problème à “voler” une série entière, un album MP3 ou installer un crack pour la suite Adobe. Comme si le support changeait la moralité de l’acte. Un dataset d’images scrapées, c’est mal, mais un disque dur plein de films piratés, c’est la normalité.

Bref, on défend la propriété intellectuelle quand ça nous arrange (l’IA menace mon job) et on l’ignore quand ça nous gêne (j’ai pas envie de payer Disney+). C’est quand même une position intenable intellectuellement, vous ne trouvez pas ? Et cela, les entreprises qui font de l’IA l’ont bien compris et surfent sur cette hypocrisie généralisée : “Vous piratez bien des livres et des films, alors pourquoi pas nous ?

Bien sûr, ce n’est pas dit explicitement, mais le message est là, et si on est honnête, l’argument n’est pas totalement faux.

Donc la solution, ce serait déjà de reconnaître nos contradictions. Perso, je pense que le partage de la culture est une bonne chose, que ce soit via le piratage ou via l’IA. Ce que je critique, c’est ceux qui défendent l’un en condamnant l’autre.

Donc si vous militez pour les droits des créateurs, soyez cohérents et payez pour le contenu que vous consommez. Et si vous piratez, assumez que vous participez aussi totalement à l’érosion du système que vous prétendez défendre contre l’IA. Après si vous achetez tout ce que vous regardez en séries, films, livres, logiciels, musique ET qu’en plus, vous militez contre l’IA, vous êtes cohérent avec vous-même et dans ce cas bravo les amigos !

Et si vous n’en avez rien à foutre de la propriété intellectuelle, que vous téléchargez illégalement tout ce qui bouge, vous pouvez continuer à attaquer l’IA sur la thématique des emplois détruits ou de l’écologie mais concernant le respect du travail des artistes, vous n’avez jamais été crédibles.

Bref, je pense qu’on devrait repenser totalement notre approche de la propriété intellectuelle car visiblement, le modèle actuel ne fonctionne plus, que ce soit pour l’IA ou le piratage. Mais bon, tant qu’on restera dans le déni de nos propres contradictions, on n’avancera pas. Donc, avant de poster votre prochain tweet indigné sur l’IA générative, regardez votre historique de téléchargements et si vous trouvez ne serait-ce qu’un fichier piraté, prenez quand même 2 min pour réfléchir à votre position morale. Vous verrez, c’est un exercice fascinant ^^.

Au final, on est tous des pirates d’une manière ou d’une autre… La différence, c’est juste le niveau d’honnêteté qu’on a avec nous-mêmes. Alors, prêts à regarder vos contradictions en face ? Ou vous préférez retourner sur YGG en attendant que ChatGPT écrive le prochain épisode de votre série préférée ?

Image

❌
❌