L’appétit grandissant des bots IA (et comment limiter leur impact sur vos serveurs)

Les crawlers des firmes stars de l’IA comme OpenAI ou Anthropic ont un appétit grandissant, parfois bien plus important que les Googlebots, ce qui peut avoir un effet néfaste sur vos performances et, in fine, votre trafic et vos conversions. Voici comment calmer leurs ardeurs :

illustration d'un robot IA dévorant des serveurs

Coucou, c’est l’IA

Depuis l’avènement de la recherche Web des LLMs, les bots IA, déjà gourmands, se sont lancés dans une course effrénée à l’exploration afin de collecter le plus de données possible sur nos sites web. En mai 2025, ils représentaient 18,9% des requêtes tandis que les robots des moteurs de recherche totalisaient 34,6%. C’est-à-dire que l’IA représente déjà plus de 50% des requêtes effectuées par les bots « classiques » :

Camembert de répartition des requêtes robots en provenances des LLMs
Source: Ahrefs

On peut d’ores et déjà parier que l’importance des bots IA va aller crescendo et, pourquoi pas, dépasser les autres dans un à deux ans. Pourquoi c’est un problème ? Le taux d’exploration de ces nouveaux bots est souvent beaucoup plus élevé que les autres, allant parfois jusqu’à 12 fois plus de requêtes que les robots Google.

L’impact ? Un serveur malmené qui peine à gérer toutes les demandes, et va donc être plus lent. Les signaux web essentiels et et d’autres mesures liées à la visibilité pourraient se détériorer, dégradant au passage votre trafic.

Il est temps de freiner leurs ardeurs avant qu’ils n’engloutissent tout.

Quels bots cibler

Les plus actifs étant ceux d’OpenAI, GPTbot, OAI-SearchBot et ChatGPT-user, il est utile de se focaliser sur eux en premier. Si les bloquer complètement est contre-productif en raison de la visibilité offerte via les mentions dans les LLMs, limiter leur influence est recommandé.

En revanche, savoir lesquels cibler dépend principalement de ce que vous diront vos logs, c’est pourquoi il est recommandé de se lancer dans leur analyse dès que possible.

Voici une liste non-exhaustive des bots IA qui pourraient peser sur votre serveur :

FournisseurUser-agent
OpenAIGPTbot
OpenAIOAI-SearchBot
OpenAIChatGPT-User
OpenAIChatGPT-User/2.0
Anthropicanthropic-ai
AnthropicClaudeBot
AnthropicClaude-web
PerplexityPerplexityBot
PerplexityPerplexity-User
MistralMistralAI-User
AppleApplebot-Extended
Coherecohere-ai
You.comYouBot
GoogleGoogle-Extended

D’autres bots plus communs comme Bingbot de Microsoft ou encore Bytespider pour TikTok sont utilisés pour leurs services d’IA (comme Copilot), mais également pour des tâches plus traditionnelles, d’où leur absence dans le tableau ci-dessus. Ils restent en revanche à prendre en compte, même s’ils ne représenteront pas forcément une part d’exploration conséquente.

Comment les bloquer

Le premier réflexe est de se rendre sur robots.txt et de disallow ceux qui sont trop gourmands. Ce n’est pas un mauvais premier pas, en revanche c’est imparfait pour deux raisons :

  • Les bots IA ne respectent pas forcément le fichier robots.txt, contrairement à Google
  • Les bloquer entièrement aura un impact sur la visibilité de votre site dans les LLMs, ce qui est embêtant pour ChatGPT et Perplexity par exemple

Robots.txt

En ce qui concerne robots.txt, il est possible de forcer les robots à respecter les règles définies dans le fichier grâce à Cloudflare et sa fonctionnalité AI Audit. Il adapte simplement les restrictions indiquées au trafic existant, afin de s’assurer que les limites fixées sont respectées.

Firewall

En ce qui concerne un blocage partiel, il est possible d’utiliser un firewall type WAF qui va bloquer certaines IPs utilisées par les crawlers IA. Comme ils effectuent des rotations d’IPs régulières, cela ne bloquera qu’une partie des requêtes et en laissera passer d’autres. Ainsi, la charge serveur diminue, sans pour autant empêcher complètement les LLMs de venir glaner vos données. Ici encore, Cloudflare peut vous aider.

.htaccess

Pour ceux qui veulent bâtir une muraille et ne rien laisser passer, le blocage via le fichier .htaccess est la solution la plus radicale. Pour barrer la route aux bots les plus courants, la commande ressemblerait à ceci :

<IfModule mod_rewrite.c>
  RewriteEngine On
  RewriteBase /

  # Bloquer les crawlers communs
  RewriteCond %{HTTP_USER_AGENT} (GPTBot|ChatGPT|ChatGPT-User|ClaudeBot|Claude-Web|PerplexityBot) [NC]
  RewriteRule ^ – [F,L]
</IfModule>

Touche pas à mon serveur

Savoir quoi bloquer et comment relève bien sûr de ce que les logs ont à dire. Une fois que vous savez (tel bot crawle beaucoup et est inutile, tel autre bot crawle également beaucoup mais est plus utile), alors vous pouvez mettre en place les solutions adaptées et suivre l’impact, sans grande crainte.

Laisser un commentaire/Leave A Comment

S’abonner à la newsletter

Inscrivez-vous à la newsletter du Copain Référenceur et recevez tous les lundis les dernières actualités Tech SEO ainsi que des conseils pratiques pour optimiser et monétiser votre site web :