Insights · Technique

robots.txt et bots IA : guide de configuration complet 2026

La prolifération des bots IA a rendu la configuration robots.txt plus complexe. Chaque crawler a son propre user-agent string, parfois plusieurs. Ce guide liste tous les bots IA majeurs avec leurs user-agents exacts, les cas d'usage courants, et des exemples de fichiers robots.txt prêts à copier.

Mis à jour 22 avril 2026 12 min de lecture

Référence complète : user-agents des bots IA en 2026

Chaque entreprise IA déploie plusieurs bots avec des rôles distincts. Voici la référence complète des user-agent strings à connaître (voir aussi notre guide d'optimisation technique) :

User-agent Entreprise Rôle Impact si bloqué
GPTBot OpenAI Entraînement modèles Exclusion des futurs corpus OpenAI
OAI-SearchBot OpenAI ChatGPT Search (retrieval) Non cité dans ChatGPT Search
ChatGPT-User OpenAI Navigation ChatGPT (plugins, browsing) Pas de navigation ChatGPT sur votre site
PerplexityBot Perplexity Indexation + retrieval Perplexity Non cité dans Perplexity
Perplexity-User Perplexity Requêtes utilisateur Perplexity Réduction visibilité Perplexity
ClaudeBot Anthropic Entraînement + retrieval Claude Exclusion corpus Anthropic
Claude-Web Anthropic Navigation web Claude Pas de navigation Claude sur votre site
anthropic-ai Anthropic Crawler Anthropic générique Exclusion corpus Anthropic
Google-Extended Google Entraînement Gemini Exclusion corpus Gemini (pas les SERP)
Applebot-Extended Apple Entraînement Apple Intelligence Exclusion corpus Apple Intelligence
CCBot Common Crawl Corpus open source (utilisé par de nombreux LLMs) Exclusion de nombreux corpus LLM open source
cohere-ai Cohere Entraînement modèles Cohere Exclusion corpus Cohere
meta-externalagent Meta Entraînement Llama / Meta AI Exclusion corpus Meta
Bytespider ByteDance Entraînement modèles ByteDance Exclusion corpus ByteDance

Les 4 configurations robots.txt types

Configuration 1, Tout autoriser (stratégie maximale-visibilité)

Aucune directive spécifique aux bots IA : ils suivent les règles générales de votre robots.txt. Recommandé si votre objectif est la visibilité maximale dans tous les LLMs et moteurs IA.

User-agent: *
Disallow:

# Sitemap
Sitemap: https://votresite.fr/sitemap.xml

Configuration 2, Bloquer l'entraînement, autoriser le retrieval

Bloquer les bots d'entraînement (GPTBot, Google-Extended, CCBot, meta-externalagent, Bytespider) tout en autorisant les bots de retrieval temps réel (OAI-SearchBot, PerplexityBot). Vous gardez la visibilité dans ChatGPT Search et Perplexity sans alimenter les corpus d'entraînement.

User-agent: GPTBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: cohere-ai
Disallow: /

User-agent: meta-externalagent
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: Applebot-Extended
Disallow: /

# Retrieval autorisé
User-agent: OAI-SearchBot
Disallow:

User-agent: ChatGPT-User
Disallow:

User-agent: PerplexityBot
Disallow:

User-agent: Perplexity-User
Disallow:

User-agent: ClaudeBot
Disallow:

User-agent: *
Disallow:

Sitemap: https://votresite.fr/sitemap.xml

Configuration 3, Tout bloquer (stratégie défensive)

Bloquer tous les bots IA connus. À utiliser uniquement si vous avez des raisons légales ou commerciales fortes (contenu propriétaire, droits d'auteur, concurrence directe avec les LLMs). Impact : quasi-absence dans les réponses des LLMs et des moteurs IA.

User-agent: GPTBot
Disallow: /

User-agent: OAI-SearchBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: Perplexity-User
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Claude-Web
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: Applebot-Extended
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: cohere-ai
Disallow: /

User-agent: meta-externalagent
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: *
Disallow:

Sitemap: https://votresite.fr/sitemap.xml

Configuration 4, Blocage sélectif par dossier

Autoriser le crawl général mais bloquer des sections spécifiques (contenu payant, données propriétaires, archives). Utile pour les médias et les SaaS avec une partie publique et une partie privée.

User-agent: GPTBot
Disallow: /contenu-premium/
Disallow: /donnees-propriétaires/
Disallow: /app/

User-agent: *
Disallow:

Sitemap: https://votresite.fr/sitemap.xml

Pièges fréquents de configuration

Piège 1, Confondre GPTBot et OAI-SearchBot

C'est l'erreur la plus commune. Un site qui bloque GPTBot pensant bloquer ChatGPT Search n'a bloqué que l'entraînement OpenAI. OAI-SearchBot continue de crawler librement. Vérifiez que vos règles ciblent les bons user-agents pour vos objectifs réels.

Piège 2, Ordre des règles robots.txt

Les robots respectent la première règle qui correspond à leur user-agent. Si vous avez un User-agent: * Disallow: / en tête de fichier, il sera prioritaire sur les règles spécifiques qui suivent pour les bots qui ne matchent pas un user-agent précis. Mettez toujours les règles spécifiques avant la règle *.

Piège 3, La casse dans les user-agents

Les user-agent strings dans robots.txt sont sensibles à la casse. GPTBot (P majuscule) est différent de gptbot. Utilisez toujours les user-agents dans la casse officielle publiée par chaque entreprise (référence dans le tableau ci-dessus).

Piège 4, Oublier le Crawl-delay pour les bots agressifs

Certains bots moins well-behaved (notamment CCBot et Bytespider) peuvent ignorer les Crawl-delay directives. Pour les bots qui les respectent, une valeur de 10 à 30 secondes réduit la charge serveur sans bloquer le crawl. Pour les bots qui ignorent cette directive, une règle WAF (Cloudflare) par user-agent est plus efficace.

Piège 5, Ne pas mettre à jour robots.txt après les nouveaux bots

De nouveaux bots IA apparaissent régulièrement. En 2025, Amazon Alexa AI, Grok (xAI), et plusieurs crawlers de LLMs open source ont été déployés. Vérifiez et mettez à jour votre robots.txt trimestriellement en consultant les annonces officielles des grandes entreprises IA.

Vérifier et tester sa configuration

Test via curl

Simulez le user-agent de chaque bot pour vérifier ce qu'il voit :

# Tester en tant que GPTBot
curl -A "Mozilla/5.0 AppleWebKit/537.36 (compatible; GPTBot/1.2; +https://openai.com/gptbot)" https://votresite.fr/robots.txt

# Tester en tant que PerplexityBot
curl -A "PerplexityBot/1.0" https://votresite.fr/robots.txt

Test via Google Search Console

L'outil de test robots.txt dans GSC (Paramètres > robots.txt) vous permet de tester n'importe quel user-agent contre votre fichier. Collez le user-agent string et l'URL à tester.

Surveillance des logs serveur

Les logs Nginx/Apache/Cloudflare montrent les requêtes de chaque bot avec leur user-agent réel. Filtrez par grep -i "gptbot\|oai-searchbot\|perplexitybot" pour voir leur activité. C'est aussi la méthode pour détecter des bots qui ignorent votre robots.txt.

FAQ, robots.txt et bots IA

Un Disallow sur GPTBot bloque-t-il ChatGPT Search ?
Non. GPTBot et OAI-SearchBot sont deux robots distincts. Bloquer GPTBot laisse OAI-SearchBot libre de crawler. Vous devez cibler chaque bot séparément selon vos objectifs.
robots.txt est-il la seule façon de bloquer les bots IA ?
Non. La balise meta robots (noai, noimageai), l'header X-Robots-Tag, et les règles WAF/Cloudflare sont des alternatives. robots.txt reste le signal le plus universel et le plus simple à maintenir.
Comment vérifier que mes règles robots.txt sont bien appliquées ?
Via GSC (outil de test robots.txt), via curl en simulant le user-agent, et via les logs serveur pour confirmer que les bots respectent vos directives.
Faut-il un Crawl-delay pour les bots IA ?
Seulement si votre serveur est sous pression. Les bots bien configurés (GPTBot, PerplexityBot) respectent les 429 et Retry-After. Attention : Googlebot ignore Crawl-delay, utilisez les paramètres GSC pour le réguler.

Checklist robots.txt bots IA (7 points)

  1. La configuration robots.txt correspond à votre stratégie (visibilité max, entraînement seulement, ou défensive).
  2. GPTBot et OAI-SearchBot ont des règles distinctes si vos objectifs diffèrent.
  3. Les user-agent strings sont dans la bonne casse (GPTBot, OAI-SearchBot, PerplexityBot).
  4. Les règles spécifiques précèdent la règle User-agent: * générique.
  5. Le fichier a été testé via GSC et/ou curl pour chaque bot concerné.
  6. Les logs serveur sont configurés pour surveiller l'activité des bots IA.
  7. Une revue trimestrielle est planifiée pour intégrer les nouveaux bots IA.