Cartographie des bots IA principaux
Avant de décider quoi bloquer, il faut comprendre ce que chaque bot fait réellement dans l'écosystème de la Generative Engine Optimization. La confusion la plus courante, et la plus coûteuse, est de confondre bot d'entraînement et bot de recherche. Ce sont des missions distinctes, avec des impacts distincts.
| User-Agent | Société | Rôle | Impact si bloqué |
|---|---|---|---|
GPTBot | OpenAI | Entraînement des modèles GPT | Absent des futurs corpus d'entraînement OpenAI |
OAI-SearchBot | OpenAI | Crawl pour ChatGPT Search (temps réel) | Non cité dans ChatGPT Search |
PerplexityBot | Perplexity AI | Indexation pour réponses Perplexity | Non cité dans Perplexity |
anthropic-ai / ClaudeBot | Anthropic | Entraînement et navigation Claude | Absent des corpus Anthropic |
Google-Extended | Entraînement IA Google (Gemini, etc.) | Absent des données d'entraînement Google IA, n'affecte PAS le SEO classique | |
Googlebot | Index de recherche classique | ⚠️ Ne jamais bloquer, perte de ranking SEO | |
Applebot-Extended | Apple | Entraînement Apple Intelligence | Absent des données Apple IA |
Bytespider | ByteDance | Entraînement modèles ByteDance/TikTok | Absent des corpus ByteDance |
CCBot | Common Crawl | Dataset open-source utilisé par de nombreux projets IA | Absent de Common Crawl (large impact sur l'écosystème IA open-source) |
Implémentation dans robots.txt
La méthode standard pour bloquer les bots IA est via robots.txt. Voici les directives exactes :
# Bloquer GPTBot (entraînement OpenAI)
User-agent: GPTBot
Disallow: /
# Bloquer ChatGPT Search
User-agent: OAI-SearchBot
Disallow: /
# Bloquer PerplexityBot
User-agent: PerplexityBot
Disallow: /
# Bloquer Anthropic (entraînement)
User-agent: anthropic-ai
Disallow: /
User-agent: ClaudeBot
Disallow: /
# Bloquer Google IA (entraînement seulement, pas le SEO)
User-agent: Google-Extended
Disallow: /
# Bloquer Apple Intelligence
User-agent: Applebot-Extended
Disallow: /
# Bloquer Common Crawl
User-agent: CCBot
Disallow: /
Pour autoriser explicitement certains bots tout en bloquant d'autres, il suffit de ne pas inclure leur directive (absence = autorisation implicite) ou d'utiliser Allow: /.
Important : robots.txt est une convention, pas une barrière technique. Les bots des grandes plateformes (OpenAI, Google, Anthropic, Perplexity) la respectent. Des acteurs moins scrupuleux peuvent l'ignorer.
Scénarios types et recommandations
Scénario A, Site de contenu éditorial qui veut maximiser sa visibilité IA
Profil : blog, media spécialisé, documentation technique, site d'autorité thématique.
Objectif : être cité par le plus grand nombre de moteurs IA possibles.
Recommandation : autoriser tous les bots IA. Votre contenu est votre actif marketing. Plus il circule, plus votre marque est citée.
# Autorisation explicite de tous les bots IA
User-agent: GPTBot
Allow: /
User-agent: OAI-SearchBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: anthropic-ai
Allow: /
User-agent: Google-Extended
Allow: / Scénario B, Éditeur premium avec modèle payant
Profil : presse, annuaires juridiques, bases de données propriétaires, contenu sous paywall.
Objectif : protéger la valeur du contenu premium et ne pas « nourrir » les LLMs gratuitement.
Recommandation : bloquer les bots d'entraînement (GPTBot, anthropic-ai, CCBot, Google-Extended). Envisager de maintenir les bots de recherche (OAI-SearchBot, PerplexityBot) si vous voulez des citations avec attribution, mais seulement pour le contenu libre d'accès.
Scénario C, Application web ou outil SaaS
Profil : application, dashboard, outil en ligne, contenu non éditorial.
Objectif : éviter le crawl inutile qui consomme de la bande passante sans valeur ajoutée.
Recommandation : bloquer tous les bots IA sur les zones applicatives (/app/, /dashboard/, /api/). Laisser ouvert le contenu marketing et éditorial (/blog/, /docs/).
Scénario D, Site d'autorité thématique (comme llmoptimisation.fr)
Profil : site qui veut devenir la référence citée dans les réponses IA sur son domaine.
Objectif : être systématiquement présent dans les corpus d'entraînement ET dans les citations de recherche en temps réel.
Recommandation : autoriser explicitement tous les bots IA. C'est l'inverse d'un éditeur premium, votre business model repose sur la notoriété IA, pas sur la protection du contenu.
L'arbitrage business en trois questions
Avant de décider, répondez à ces trois questions :
- Mon contenu est-il mon actif différenciant ou ma barrière à l'entrée ?
Actif différenciant (vous voulez qu'on le connaisse) → laissez ouvert.
Barrière à l'entrée (il vaut par son exclusivité) → bloquez. - Est-ce que je gagne à être cité dans les moteurs IA ?
Si vos clients potentiels utilisent ChatGPT Search ou Perplexity pour chercher des solutions comme la vôtre → oui, massivement.
Si votre valeur est dans le contenu lui-même (presse, research) → l'arbitrage est plus complexe. - Ai-je un modèle de monétisation des données IA ?
OpenAI, Perplexity et d'autres proposent des accords commerciaux aux grands éditeurs. Si vous avez un corpus de valeur, la négociation d'un accord peut être plus rentable que le blocage unilatéral.
Questions fréquentes
Bloquer GPTBot empêche-t-il d'apparaître dans ChatGPT Search ?
Non. GPTBot est le bot d'entraînement d'OpenAI. ChatGPT Search utilise OAI-SearchBot, un bot distinct. Pour bloquer les citations dans ChatGPT Search, c'est OAI-SearchBot qu'il faut cibler, pas GPTBot.
Bloquer Google-Extended affecte-t-il le ranking Google classique ?
Non. Google-Extended est exclusivement le bot d'entraînement IA de Google. Le bloquer n'affecte pas Googlebot ni votre positionnement organique. En revanche, cela peut réduire votre présence dans les surfaces IA de Google (AI Overviews, etc.).
Un site bloquant tous les bots IA peut-il quand même être cité par les LLMs ?
Partiellement. Les LLMs utilisent les données de leurs corpus d'entraînement passés, qui peuvent inclure votre site avant le blocage. Mais pour les citations en temps réel (Perplexity, ChatGPT Search), le blocage est effectif.
Synthèse
Il n'y a pas de bonne ou mauvaise réponse universelle. Bloquer ou autoriser les bots IA est un choix stratégique qui découle de votre modèle business, de la nature de votre contenu et de vos objectifs de visibilité. Ce qui est certain :
- Ne jamais bloquer
Googlebot(perte SEO immédiate et irréversible). - Distinguer entraînement (GPTBot, CCBot) et recherche temps réel (OAI-SearchBot, PerplexityBot).
- Une décision cohérente et documentée vaut mieux qu'un blocage partiel improvisé.
- Vérifier vos logs serveur pour confirmer que vos directives robots.txt sont respectées.