Vue normale

Il y a de nouveaux articles disponibles, cliquez pour rafraîchir la page.
À partir d’avant-hierFlux principal

Perplexity veut racheter Google Chrome pour 34,5 milliards de dollars

Par : Hugo Bernard
13 août 2025 à 11:07

Sans avoir été sollicitée par Google, la startup d'IA Perplexity a envoyé une offre pour racheter le navigateur Chrome pour 34,5 milliards de dollars. Elle veut devancer ses concurrents, alors que Google risque de devoir vendre son navigateur, à cause d'un procès antitrust aux États-Unis.

Les secrets pour cartonner sur Perplexity AI

Par : Korben
7 août 2025 à 13:00

Si vous vous intéressez au référencement, ce que je vais vous raconter aujourd’hui risque de chambouler pas mal de vos certitudes sur le SEO. En effet, un chercheur vient de découvrir 59 facteurs de ranking cachés dans l’algorithme de Perplexity AI, et autant vous dire que ça change complètement la donne pour tous ceux qui veulent être visibles sur ce moteur de recherche IA.

Si vous ne connaissez pas encore Perplexity et bien c’est pas grave, je vous explique ! C’est un site qui combine un LLM avec un moteur de recherche traditionnel ce qui lui permet d’éviter la plupart du temps, les fameuses hallucinations de l’IA. Mais ce qu’on ne savait pas jusqu’à maintenant, c’est comment ce truc décide exactement quel contenu mérite d’apparaître dans ses réponses. Et vous allez voir, ce système est d’une complexité hallucinante.

Il y a d’abord ce qu’ils appellent le newpostimpression_threshold. C’est une fenêtre critique qui apparait juste après la publication et où tout se joue. Si votre contenu ne performe pas dans les premières minutes (littéralement), vous êtes grillé pour toujours. C’est brutal mais c’est comme ça que l’algorithme fonctionne.

D’ailleurs, l’algorithme Sonar de Perplexity (oui, ils lui ont donné un petit nom, c’est meugnon) est complètement obsédé par la fraîcheur du contenu. Sonar prend le système QDF de Google et le pousse à son maximum. Même une modification mineure remet complètement à zéro le chrono de fraîcheur. Du coup, certains malins automatisent des updates hebdomadaires juste pour rester dans la course.

Mais attendez, ça devient encore plus intéressant car le système utilise aussi un reranker machine learning à trois couches (L3) pour les recherches d’entités. En gros, après avoir récupéré les résultats initiaux, l’algo applique des filtres ML super stricts et si trop peu de résultats passent le seuil, hop, toute la liste part à la poubelle. C’est du tout ou rien.

Un autre pattern complètement loufoque, ce sont les titres YouTube qui obtiennent une visibilité boostée sur les deux plateformes, s’il correspondent exactement aux requêtes trending sur Perplexity. Ça suggère donc une validation croisée entre YouTube et Perplexity. Le système récompense ceux qui réagissent vite sur les sujets émergents.

Pour le contenu structuré, c’est également la fête du FAQ Schema. Les blocs JSON-LD avec @type: FAQPage doublent littéralement la fréquence de citation dans les tests A/B. Perplexity adore ces chunks sémantiques bien découpés qui s’alignent parfaitement avec la logique de récupération des LLM.

Et puis il y a cette histoire de PDFs qui défie toute logique. Un PDF obtient en moyenne 1,6 citations pour 100 requêtes contre 1,3 pour le même contenu en HTML. Ça peut paraître insignifiant, mais multipliez ça par le volume de recherches et vous comprenez vite l’intérêt.

Le système maintient aussi des listes manuelles de domaines autoritaires (Amazon, GitHub, LinkedIn, Coursera…) comme ça, si votre contenu est lié ou référencé par ces plateformes, vous bénéficiez automatiquement d’un boost d’autorité. C’est du favoritisme assumé, mais ça marche.

Pour ceux qui veulent optimiser leur contenu, pensez donc à le structurer avec des H1-H4, des bullet points, des listes numérotées car ces formats facilitent l’extraction par l’IA et améliorent vos chances d’être cité. Simple mais efficace. Perso, je ne mets jamais trop de liste ou d’inter-titres dans mes articles mais c’est encore à ma portée.

Le système privilégie aussi certains topics avec des multiplicateurs de visibilité différents. L’IA, la tech, la science et le business analytics sont les grands gagnants donc si vous écrivez sur ces sujets, vous partez avec un avantage naturel.

Un autre détail technique important c’est il existe un schéma cryptographique “weak” au niveau des requêtes du navigateur qui gouverne l’évaluation du contenu. Les signaux passent par cette couche additionnelle invisible via l’API standard, ce qui explique pourquoi certains contenus semblent avoir des avantages inexpliqués.

La fonction Deep Research de Perplexity décompose aussi automatiquement les questions complexes en sous-tâches, consulte diverses sources spécialisées et compile tout ça en rapport détaillé. C’est cette capacité qui rend l’optimisation si différente du SEO classique.

Bref, on est en plein dans du GEO (Generative Engine Optimization) qui est en train de remplacer progressivement le SEO traditionnel. Les règles changent complètement et s’en est fini du bourrage de mots-clés… Maintenant, place à la richesse sémantique et à la structuration intelligente du contenu.

Donc pour maximiser vos chances, voici la stratégie gagnante : Publiez fréquemment du contenu ultra-frais, structurez-le parfaitement avec du schema markup FAQ, créez des clusters de contenu interconnectés, et surtout, surtout, assurez-vous que les premières minutes après publication soient explosives en termes d’engagement.

Le time decay est impitoyable sur Perplexity et votre contenu perd exponentiellement en visibilité au fil du temps. C’est pourquoi les updates réguliers ne sont pas une option mais une nécessité absolue. Certains créateurs programment des rafraîchissements automatiques toutes les semaines juste pour maintenir leur position.

Perso, ça me parait compliqué à mon échelle de gérer tout ça, donc je vais passer mon tour et laisser mes collègues média bien se prendre le chou pour se faire indexer du mieux qu’ils peuvent. Vous me raconterez, moi j’ai la flemme ! Je compte uniquement sur mon flux RSS maintenant et sur les gens qui mettent korben.info en page d’accueil (ou qui installent ce plugin). Et advienne que pourra…

Ce qu’il faut retenir, c’est que Perplexity est très fort pour valider la pertinence en temps réel. Le système analyse les embeddings avec des seuils de similarité sophistiqués, traque l’engagement utilisateur de manière ultra-précise, et récompense les réseaux de contenu interconnectés qui démontrent une expertise par sujet.

Bref, je vous laisse lire tout ça mais ces 59 facteurs révèlent un algorithme d’une complexité insoupçonnée qui mélange machine learning avancé, signaux temps réel et validation cross-platform. J’sais pas si Google est au point là dessus, mais je leur souhaite aussi bon courage !

Et un grand merci à Lorenper pour l’info !

Source

Perplexity AI se fait choper la main dans le sac avec ses bots masqués qui contournent les règles

Par : Korben
4 août 2025 à 17:09

Perplexity AI s’est fait épingler par Cloudflare, pris la main dans le sac à contourner allègrement les règles du web avec leurs bots masqués. Et le plus fort dans tout ça c’est qu’ils nient tout en bloc.

L’affaire a éclaté quand Cloudflare, qui s’occupe d’un cinquième du trafic internet mondial, a décidé de fouiner un peu dans les pratiques suspectes de certains bots IA. Et le verdict est tombé assez rapidement : Perplexity a recours à des crawlers furtifs qui se font passer pour de véritables navigateurs afin de s’emparer du contenu des sites web, même lorsque les propriétaires ont dit non par le biais du fameux fichier robots.txt.

Ce qui rend cette histoire encore plus énervante, c’est la technique utilisée. Plutôt que d’employer leur user agent officiel “PerplexityBot”, les bots se déguisent en Chrome sur Windows 10.

Cloudflare a mené ses propres expériences pour prouver la manœuvre. Ils ont conçu un site web accessible uniquement aux vrais user agents Chrome et Firefox, tout en bloquant explicitement PerplexityBot via le robots.txt. Les bots officiels de Perplexity sont bien arrêtés, mais étrangement, quand un utilisateur fait une requête sur Perplexity.ai, le contenu est tout de même récupéré.

Comment ? Et bien grâce à des crawlers masqués, utilisant des ASN (Autonomous System Numbers) différents et des user agents trafiqués.

La défense de Perplexity ? Un véritable morceau de bravoure. Leur PDG, Aravind Srinivas, affirme qu’ils ne contournent pas le robots.txt, mais qu’ils recourent à des “fournisseurs tiers” pour le crawling. En gros, “C’est panoupanous, c’est les autres.” Sauf qu’il ne veut pas révéler l’identité de ces mystérieux partenaires, prétextant un accord de confidentialité. Pratique, non ?

Le problème dépasse largement le cadre de Perplexity car Wired et le développeur Robb Knight avaient déjà mené l’enquête en juin 2024 et découvert des indices similaires. Amazon Web Services a même lancé une investigation pour vérifier si Perplexity bafoue leurs conditions d’utilisation. Et en juin 2025, la BBC a menacé de poursuites judiciaires, exigeant que Perplexity cesse de scraper leur contenu et efface toutes les données collectées.

Pour situer l’ampleur du phénomène, Cloudflare a déterminé que les bots IA représentent désormais 5% de tout le trafic bot identifié. OpenAI avec GPTBot est en tête, suivi de… PerplexityBot en neuvième position. Mais ça, c’est uniquement pour ceux qui jouent cartes sur table. Combien passent sous le radar avec des identités truquées ?

La technique de contournement est d’ailleurs assez rusée car quand vous demandez à Perplexity d’explorer une URL spécifique, leur système prétend agir “au nom de l’utilisateur”, comme si vous copiez-collez vous-même le contenu. Sauf qu’en réalité, c’est un bot automatisé qui s’en charge, en utilisant des headless browsers pour paraître plus légitime.

TollBit, une startup spécialisée dans les accords de licence IA, a révélé que plus de 50 sites web choisissent délibérément d’ignorer le protocole robots.txt. Et surprise, selon une enquête de Business Insider, OpenAI et Anthropic (les créateurs de Claude) figureraient parmi eux. Mais au moins, ils ne se cachent pas derrière des user agents falsifiés.

Ce qui m’agace vraiment dans cette histoire, c’est l’hypocrisie ambiante. D’un côté, ces entreprises IA nous vendent du rêve sur l’éthique et la transparence et de l’autre, elles emploient des méthodes dignes de hackers des années 2000 pour aspirer du contenu sans permission. Et pendant ce temps, les créateurs de contenu se retrouvent pillés sans compensation.

Cloudflare propose bien quelques solutions pour se protéger, notamment leur outil AI Bots qui permet de gérer finement l’accès des différents crawlers IA. Ils ont aussi mis au point un “Bot Score” qui évalue la légitimité du trafic sur une échelle de 1 à 99. Plus le score est bas, plus y’a de chances que ce soit un bot. Les crawlers masqués de Perplexity obtiennent généralement un score en dessous de 30.

Donc, si vous gérez un site web, je vous recommande vivement de scruter vos logs. Repérez les schémas suspects du genre une même IP qui enchaîne les requêtes, des user agents identiques mais aux comportements différents, ou des accès à des URLs jamais publiées.

Quoiqu’il en soit, si même les plus grandes entreprises IA ne respectent pas des règles basiques comme le robots.txt, qu’est-ce qui les empêchera demain de franchir d’autres limites ?

C’est bien dommage, je trouve…

Source

ChatGPT vous renvoie vers de mauvaises URLs et c’est formidable pour les hackers

3 juillet 2025 à 11:45

Une étude de la société de cybersécurité Netcraft révèle que des cybercriminels exploitent les errances des LLMs comme ChatGPT ou Perplexity. Cette nouvelle méthode de piratage repose sur les faux liens renvoyés par les IA génératives.

❌
❌