Insights

Bloquer les bots IA

GPTBot, PerplexityBot, ClaudeBot, Google-Extended, OAI-SearchBot. Chacun a un rôle distinct. Savoir qui bloquer, et pourquoi, requiert une logique business, pas une réaction émotionnelle.

Mis à jour 22 avril 2026 11 min de lecture

Cartographie des bots IA principaux

Avant de décider quoi bloquer, il faut comprendre ce que chaque bot fait réellement dans l'écosystème de la Generative Engine Optimization. La confusion la plus courante, et la plus coûteuse, est de confondre bot d'entraînement et bot de recherche. Ce sont des missions distinctes, avec des impacts distincts.

User-Agent Société Rôle Impact si bloqué
GPTBot OpenAI Entraînement des modèles GPT Absent des futurs corpus d'entraînement OpenAI
OAI-SearchBot OpenAI Crawl pour ChatGPT Search (temps réel) Non cité dans ChatGPT Search
PerplexityBot Perplexity AI Indexation pour réponses Perplexity Non cité dans Perplexity
anthropic-ai / ClaudeBot Anthropic Entraînement et navigation Claude Absent des corpus Anthropic
Google-Extended Google Entraînement IA Google (Gemini, etc.) Absent des données d'entraînement Google IA, n'affecte PAS le SEO classique
Googlebot Google Index de recherche classique ⚠️ Ne jamais bloquer, perte de ranking SEO
Applebot-Extended Apple Entraînement Apple Intelligence Absent des données Apple IA
Bytespider ByteDance Entraînement modèles ByteDance/TikTok Absent des corpus ByteDance
CCBot Common Crawl Dataset open-source utilisé par de nombreux projets IA Absent de Common Crawl (large impact sur l'écosystème IA open-source)

Implémentation dans robots.txt

La méthode standard pour bloquer les bots IA est via robots.txt. Voici les directives exactes :

# Bloquer GPTBot (entraînement OpenAI)
User-agent: GPTBot
Disallow: /

# Bloquer ChatGPT Search
User-agent: OAI-SearchBot
Disallow: /

# Bloquer PerplexityBot
User-agent: PerplexityBot
Disallow: /

# Bloquer Anthropic (entraînement)
User-agent: anthropic-ai
Disallow: /
User-agent: ClaudeBot
Disallow: /

# Bloquer Google IA (entraînement seulement, pas le SEO)
User-agent: Google-Extended
Disallow: /

# Bloquer Apple Intelligence
User-agent: Applebot-Extended
Disallow: /

# Bloquer Common Crawl
User-agent: CCBot
Disallow: /

Pour autoriser explicitement certains bots tout en bloquant d'autres, il suffit de ne pas inclure leur directive (absence = autorisation implicite) ou d'utiliser Allow: /.

Important : robots.txt est une convention, pas une barrière technique. Les bots des grandes plateformes (OpenAI, Google, Anthropic, Perplexity) la respectent. Des acteurs moins scrupuleux peuvent l'ignorer.

Scénarios types et recommandations

Scénario A, Site de contenu éditorial qui veut maximiser sa visibilité IA

Profil : blog, media spécialisé, documentation technique, site d'autorité thématique.

Objectif : être cité par le plus grand nombre de moteurs IA possibles.

Recommandation : autoriser tous les bots IA. Votre contenu est votre actif marketing. Plus il circule, plus votre marque est citée.

# Autorisation explicite de tous les bots IA
User-agent: GPTBot
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: anthropic-ai
Allow: /

User-agent: Google-Extended
Allow: /

Scénario B, Éditeur premium avec modèle payant

Profil : presse, annuaires juridiques, bases de données propriétaires, contenu sous paywall.

Objectif : protéger la valeur du contenu premium et ne pas « nourrir » les LLMs gratuitement.

Recommandation : bloquer les bots d'entraînement (GPTBot, anthropic-ai, CCBot, Google-Extended). Envisager de maintenir les bots de recherche (OAI-SearchBot, PerplexityBot) si vous voulez des citations avec attribution, mais seulement pour le contenu libre d'accès.

Scénario C, Application web ou outil SaaS

Profil : application, dashboard, outil en ligne, contenu non éditorial.

Objectif : éviter le crawl inutile qui consomme de la bande passante sans valeur ajoutée.

Recommandation : bloquer tous les bots IA sur les zones applicatives (/app/, /dashboard/, /api/). Laisser ouvert le contenu marketing et éditorial (/blog/, /docs/).

Scénario D, Site d'autorité thématique (comme llmoptimisation.fr)

Profil : site qui veut devenir la référence citée dans les réponses IA sur son domaine.

Objectif : être systématiquement présent dans les corpus d'entraînement ET dans les citations de recherche en temps réel.

Recommandation : autoriser explicitement tous les bots IA. C'est l'inverse d'un éditeur premium, votre business model repose sur la notoriété IA, pas sur la protection du contenu.

L'arbitrage business en trois questions

Avant de décider, répondez à ces trois questions :

  1. Mon contenu est-il mon actif différenciant ou ma barrière à l'entrée ?
    Actif différenciant (vous voulez qu'on le connaisse) → laissez ouvert.
    Barrière à l'entrée (il vaut par son exclusivité) → bloquez.
  2. Est-ce que je gagne à être cité dans les moteurs IA ?
    Si vos clients potentiels utilisent ChatGPT Search ou Perplexity pour chercher des solutions comme la vôtre → oui, massivement.
    Si votre valeur est dans le contenu lui-même (presse, research) → l'arbitrage est plus complexe.
  3. Ai-je un modèle de monétisation des données IA ?
    OpenAI, Perplexity et d'autres proposent des accords commerciaux aux grands éditeurs. Si vous avez un corpus de valeur, la négociation d'un accord peut être plus rentable que le blocage unilatéral.

Questions fréquentes

Bloquer GPTBot empêche-t-il d'apparaître dans ChatGPT Search ?

Non. GPTBot est le bot d'entraînement d'OpenAI. ChatGPT Search utilise OAI-SearchBot, un bot distinct. Pour bloquer les citations dans ChatGPT Search, c'est OAI-SearchBot qu'il faut cibler, pas GPTBot.

Bloquer Google-Extended affecte-t-il le ranking Google classique ?

Non. Google-Extended est exclusivement le bot d'entraînement IA de Google. Le bloquer n'affecte pas Googlebot ni votre positionnement organique. En revanche, cela peut réduire votre présence dans les surfaces IA de Google (AI Overviews, etc.).

Un site bloquant tous les bots IA peut-il quand même être cité par les LLMs ?

Partiellement. Les LLMs utilisent les données de leurs corpus d'entraînement passés, qui peuvent inclure votre site avant le blocage. Mais pour les citations en temps réel (Perplexity, ChatGPT Search), le blocage est effectif.

Synthèse

Il n'y a pas de bonne ou mauvaise réponse universelle. Bloquer ou autoriser les bots IA est un choix stratégique qui découle de votre modèle business, de la nature de votre contenu et de vos objectifs de visibilité. Ce qui est certain :