Vue normale

Il y a de nouveaux articles disponibles, cliquez pour rafraîchir la page.
À partir d’avant-hierFlux principal

Comment bloquer les crawlers IA qui pillent votre site sans vous demander la permission ?

Par : Korben
15 décembre 2025 à 13:11

Vous en avez marre de voir GPTBot, ClaudeBot et toute la bande de crawlers IA se servir sur votre site comme dans un buffet à volonté ? Perso, j'utilise Cloudflare qui propose des options pour ça directement mais tout le monde n'utilise pas ce service. Du coup ce projet ai.robots.txt est super pratique pour ceux qui gèrent leur propre serveur et qui veulent reprendre le contrôle sur ce qui se fait aspirer.

L'idée c'est de maintenir sur Github une liste exhaustive de tous les crawlers liés à l'IA, que ce soit pour entraîner des modèles ou alimenter des moteurs de recherche IA. On y retrouve les suspects habituels comme GPTBot (OpenAI), Claude-Web (Anthropic), Google-Extended, meta-externalagent, mais aussi des trucs plus obscurs comme img2dataset ou laion-huggingface-processor qui servent à aspirer des images.

Le truc cool, c'est que le projet ne se contente pas juste de fournir un robots.txt à copier-coller. Y'a aussi des fichiers de config prêts à l'emploi pour Apache (.htaccess), Nginx, Caddy et même HAProxy. Du coup vous pouvez carrément renvoyer une erreur HTTP aux crawlers au lieu de juste leur dire "non" poliment via robots.txt (qu'ils ignorent parfois de toute façon, les malotrus).

Pour Nginx par exemple, vous récupérez le fichier nginx-block-ai-bots.conf et vous l'incluez dans votre config de virtual host. Le fichier contient une regex qui matche tous les User-Agent connus des crawlers IA. Même principe pour Apache avec le .htaccess, ou pour HAProxy où vous ajoutez quelques lignes dans la section frontend pour détecter et bloquer ces bots.

Le projet est maintenu activement par une communauté de contributeurs qui surveille les nouveaux crawlers qui débarquent et dès qu'un nouveau bot IA se pointe, la liste est mise à jour et les fichiers de config sont regénérés automatiquement via GitHub Actions.

Après, le robots.txt ça reste un "gentlemen's agreement" et y'a que les crawlers sympas le respectent... Les autres font semblant de pas le voir. A voir maintenant si c'est une bonne idée ou pas de bloquer ces crawlers...

C'est à vous de voir mais si vous n'aimez pas l'IA je pense que vous adorerez cette liste de blocage . Après si vous vous inquiétez sur votre audience votre référencement et compagnie, peut-être que vous voulez quand même récupérer un peu de trafic en provenance de ces chatbots IA.

Donc à vous de voir...

Si vous utilisez Gogs, vous avez un gros problème

Par : Korben
11 décembre 2025 à 07:22

En 2016, je vous parlais de Gogs , ce petit serveur Git auto-hébergé super léger qui s’installe en 10 secondes et c’est encore aujourd’hui une alternative sympa à GitHub pour ceux qui voulaient garder leur code chez eux. Mais attention, si vous l’utilisez, il va falloir agir vite parce que là, c’est la catastrophe.

Des chercheurs de Wiz viennent de découvrir que plus de 700 instances Gogs exposées sur Internet ont été compromises via une faille zero-day baptisée CVE-2025-8110. Et le pire, c’est que cette faille est activement exploitée depuis juillet 2025 et qu’il n’existe toujours pas de patch.

L’attaque est vicieuse car un attaquant n’a besoin que d’un compte utilisateur standard pour compromettre votre serveur. Il crée un dépôt, y ajoute un lien symbolique pointant vers un fichier sensible, puis utilise l’API PutContents pour écrire à travers ce lien et modifier le fichier .git/config. Ensuite, en bidouillant la directive sshCommand, il peut alors exécuter n’importe quelle commande sur votre serveur. Voilà, c’est plié !

Cette faille est en fait un contournement d’un ancien correctif (CVE-2024-55947). Les développeurs avaient patché le problème mais avaient oublié de gérer le cas des liens symboliques. Et ce n’est même pas la première fois que Gogs se retrouve dans cette situation puisqu’en juillet 2024, quatre failles critiques avaient été publiées (CVE-2024-39930, CVE-2024-39931, CVE-2024-39932, CVE-2024-39933), toutes avec des scores CVSS de 9.9 sur 10, et au final, les mainteneurs avaient tout simplement… cessé de répondre aux chercheurs. C’est moche !

Sur les 1400 instances Gogs exposées sur Internet identifiées par Wiz, plus de 700 ont donc été compromises. Les attaquants utilisent le framework C2 Supershell pour garder le contrôle des machines et les chercheurs soupçonnent des cybercriminels basés en Asie vu l’usage de cet outil très particulier.

Donc si vous avez un serveur Gogs qui tourne, voici ce qu’il faut faire immédiatement : Vous devez désactiver l’inscription ouverte si vous n’en avez pas besoin (c’est activé par défaut) et mettre votre instance derrière un VPN. Après pour savoir si vous êtes déjà compromis, cherchez des dépôts créés le 10 juillet avec des noms bizarres de 8 caractères.

Après à ce stade, je vous conseille de migrer vers Gitea , le fork de Gogs qui est activement (et mieux) maintenu et qui n’est pas affecté par ces failles. Gogs semble être devenu un projet abandonné niveau sécurité, et c’est vraiment dommage parce que le concept était génial.

Source

❌
❌