Botasaurus - Le scraper qui rend Cloudflare aussi facile à contourner qu'un CAPTCHA de 2005
Hey les scrapers de l’espace là, vous en avez marre de vous battre contre Cloudflare comme si c’était le boss final d’un Dark Souls ? Et bien sûr, vous avez testé Selenium et Playwright mais vos bots se font démasquer plus vite qu’un menteur à l’Assemblée Nationale ? Alors ça tombe bien car j’ai trouvé votre nouveau meilleur ami, et il s’appelle Botasaurus.
Derrière ce nom de dinosaure se cache un framework Python open source, conçu pour le scraping web moderne. Créé par Omkar Cloud, il promet de faire passer vos bots pour des humains plus vrais que nature.
La première chose avec Botasaurus, c’est sa capacité à contourner les protections anti-bot. Il passe notamment la barrière de Cloudflare avec brio mais pas seulement, puisqu’il gère aussi très bien PerimeterX, BrowserScan, Fingerprint Bot Detection, et même les CAPTCHA Turnstile. Le créateur du framework a même publié une vidéo où il contourne tous ces systèmes en live. La grande classe !
Concernant Datadome, il semble cependant galérer encore un peu d’après les retours que j’ai eu.
Ce qui démarque Botasaurus, c’est surtout son approche “humane driver” car au lieu d’utiliser bêtement Selenium ou Playwright, le framework ajoute une couche d’humanisation qui simule des mouvements de souris réalistes, des temps de pause naturels, et même des patterns de navigation qui imitent un vrai utilisateur. Du coup vos bots passent incognito avec du style ^^.
Ce framework permet même d’économiser jusqu’à 97% sur les coûts de proxy. Comment ? Et bien en utilisant des requêtes fetch basées sur le navigateur au lieu de lancer un navigateur complet pour chaque requête. C’est malin et ça fait une sacrée différence sur la facture à la fin du mois.
Pour l’installation, c’est du Python classique :
python -m pip install --upgrade botasaurus
Et voici un exemple simple pour scraper un site :
from botasaurus.browser import browser, Driver
@browser
def scrape_heading_task(driver: Driver, data):
# Visite le site via Google Referrer (pour bypass Cloudflare)
driver.google_get(data['url'])
# Récupère le texte du titre
heading = driver.get_text('h1')
return {"heading": heading}
# Lance le scraping
scrape_heading_task()
Ce décorateur @browser
gère automatiquement tout le setup du navigateur, les anti-détections, et même la sauvegarde des résultats en JSON. Comme ça, pas besoin de se prendre la tête avec la configuration.
Et pour les cas où vous avez besoin de contourner du Cloudflare plus agressif, il suffit d’ajouter un paramètre comme ceci :
driver.google_get(url, bypass_cloudflare=True)
D’après les benchmarks de ScrapingAnt, Botasaurus est plus furtif qu’undetected-chromedriver et puppeteer-stealth. C’est dire le niveau de sophistication atteint.
Un autre point fort de Botasaurus, c’est également la possibilité de transformer votre scraper en application desktop. En une journée, vous pouvez créer une app pour Windows, Mac et Linux avec une interface graphique complète. C’est génial, car ça vous éviter d’expliquer à vos clients comment lancer un script Python. Ils ont juste une app sur laquelle double-cliquer.
Le framework inclut aussi un serveur web intégré qui permet de créer une UI pour vos scrapers comme ça, avec quelques lignes de JavaScript, vous pouvez définir des formulaires d’input, des filtres, des exports en CSV/Excel, et même une API REST pour intégrer votre scraper ailleurs.
Ce framework brille donc particulièrement pour tout ce qui est :
- Les sites avec protection Cloudflare basique à modérée
- Le scraping local ou sur VPS avec peu de volume
- La création rapide de scrapers avec UI
- Les projets où l’anti-détection prime sur la performance pure
Par contre, pour du scraping massif à grande échelle ou contre des protections enterprise ultra-sophistiquées, vous devrez probablement combiner Botasaurus avec d’autres outils ou services.