Un Disallow sur GPTBot bloque-t-il ChatGPT Search ?

Non. GPTBot et OAI-SearchBot sont deux robots distincts. GPTBot crawle pour alimenter l'entraînement des modèles OpenAI. OAI-SearchBot crawle pour ChatGPT Search. Un Disallow sur GPTBot laisse OAI-SearchBot libre de crawler. Vous devez ajouter une règle distincte pour chaque bot selon vos objectifs.

robots.txt est-il la seule façon de bloquer les bots IA ?

Non. Vous pouvez aussi utiliser la balise meta robots ( ), le header HTTP X-Robots-Tag, ou des règles WAF/Cloudflare par user-agent. La balise meta noai est reconnue par certains bots (notamment les crawlers d'entraînement) mais pas par tous. robots.txt reste le signal le plus universel et le plus simple à maintenir.

Comment vérifier que mes règles robots.txt sont bien appliquées ?

Testez via Google Search Console (outil de test robots.txt), via curl en simulant le user-agent (curl -A "GPTBot" https://votresite.fr/robots.txt), et via les logs serveur pour vérifier que les bots respectent vos directives. Note : les logs serveur montrent les requêtes des bots, mais un bot mal configuré ou malveillant peut ignorer robots.txt.

Faut-il un Crawl-delay pour les bots IA ?

Seulement si votre serveur est sous pression. GPTBot, OAI-SearchBot et PerplexityBot respectent généralement les en-têtes Retry-After et les codes 429 (Too Many Requests). Ajouter un Crawl-delay de 10-30 secondes peut réduire la charge sans bloquer le crawl. Attention : Google ne reconnaît pas la directive Crawl-delay, pour Googlebot, utilisez le paramètre de fréquence d'exploration dans GSC.

robots.txt et bots IA : guide de configuration complet 2026

Référence complète : user-agents des bots IA en 2026

Chaque entreprise IA déploie plusieurs bots avec des rôles distincts. Voici la référence complète des user-agent strings à connaître (voir aussi notre guide d'optimisation technique) :

User-agent	Entreprise	Rôle	Impact si bloqué
GPTBot	OpenAI	Entraînement modèles	Exclusion des futurs corpus OpenAI
OAI-SearchBot	OpenAI	ChatGPT Search (retrieval)	Non cité dans ChatGPT Search
ChatGPT-User	OpenAI	Navigation ChatGPT (plugins, browsing)	Pas de navigation ChatGPT sur votre site
PerplexityBot	Perplexity	Indexation + retrieval Perplexity	Non cité dans Perplexity
Perplexity-User	Perplexity	Requêtes utilisateur Perplexity	Réduction visibilité Perplexity
ClaudeBot	Anthropic	Entraînement + retrieval Claude	Exclusion corpus Anthropic
Claude-Web	Anthropic	Navigation web Claude	Pas de navigation Claude sur votre site
anthropic-ai	Anthropic	Crawler Anthropic générique	Exclusion corpus Anthropic
Google-Extended	Google	Entraînement Gemini	Exclusion corpus Gemini (pas les SERP)
Applebot-Extended	Apple	Entraînement Apple Intelligence	Exclusion corpus Apple Intelligence
CCBot	Common Crawl	Corpus open source (utilisé par de nombreux LLMs)	Exclusion de nombreux corpus LLM open source
cohere-ai	Cohere	Entraînement modèles Cohere	Exclusion corpus Cohere
meta-externalagent	Meta	Entraînement Llama / Meta AI	Exclusion corpus Meta
Bytespider	ByteDance	Entraînement modèles ByteDance	Exclusion corpus ByteDance

Les 4 configurations robots.txt types

Configuration 1, Tout autoriser (stratégie maximale-visibilité)

Aucune directive spécifique aux bots IA : ils suivent les règles générales de votre robots.txt. Recommandé si votre objectif est la visibilité maximale dans tous les LLMs et moteurs IA.

User-agent: *
Disallow:

# Sitemap
Sitemap: https://votresite.fr/sitemap.xml

Configuration 2, Bloquer l'entraînement, autoriser le retrieval

Bloquer les bots d'entraînement (GPTBot, Google-Extended, CCBot, meta-externalagent, Bytespider) tout en autorisant les bots de retrieval temps réel (OAI-SearchBot, PerplexityBot). Vous gardez la visibilité dans ChatGPT Search et Perplexity sans alimenter les corpus d'entraînement.

User-agent: GPTBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: cohere-ai
Disallow: /

User-agent: meta-externalagent
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: Applebot-Extended
Disallow: /

# Retrieval autorisé
User-agent: OAI-SearchBot
Disallow:

User-agent: ChatGPT-User
Disallow:

User-agent: PerplexityBot
Disallow:

User-agent: Perplexity-User
Disallow:

User-agent: ClaudeBot
Disallow:

User-agent: *
Disallow:

Sitemap: https://votresite.fr/sitemap.xml

Configuration 3, Tout bloquer (stratégie défensive)

Bloquer tous les bots IA connus. À utiliser uniquement si vous avez des raisons légales ou commerciales fortes (contenu propriétaire, droits d'auteur, concurrence directe avec les LLMs). Impact : quasi-absence dans les réponses des LLMs et des moteurs IA.

User-agent: GPTBot
Disallow: /

User-agent: OAI-SearchBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: Perplexity-User
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Claude-Web
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: Applebot-Extended
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: cohere-ai
Disallow: /

User-agent: meta-externalagent
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: *
Disallow:

Sitemap: https://votresite.fr/sitemap.xml

Configuration 4, Blocage sélectif par dossier

Autoriser le crawl général mais bloquer des sections spécifiques (contenu payant, données propriétaires, archives). Utile pour les médias et les SaaS avec une partie publique et une partie privée.

User-agent: GPTBot
Disallow: /contenu-premium/
Disallow: /donnees-propriétaires/
Disallow: /app/

User-agent: *
Disallow:

Sitemap: https://votresite.fr/sitemap.xml

Pièges fréquents de configuration

Piège 1, Confondre GPTBot et OAI-SearchBot

C'est l'erreur la plus commune. Un site qui bloque GPTBot pensant bloquer ChatGPT Search n'a bloqué que l'entraînement OpenAI. OAI-SearchBot continue de crawler librement. Vérifiez que vos règles ciblent les bons user-agents pour vos objectifs réels.

Piège 2, Ordre des règles robots.txt

Les robots respectent la première règle qui correspond à leur user-agent. Si vous avez un User-agent: * Disallow: / en tête de fichier, il sera prioritaire sur les règles spécifiques qui suivent pour les bots qui ne matchent pas un user-agent précis. Mettez toujours les règles spécifiques avant la règle *.

Piège 3, La casse dans les user-agents

Les user-agent strings dans robots.txt sont sensibles à la casse. GPTBot (P majuscule) est différent de gptbot. Utilisez toujours les user-agents dans la casse officielle publiée par chaque entreprise (référence dans le tableau ci-dessus).

Piège 4, Oublier le Crawl-delay pour les bots agressifs

Certains bots moins well-behaved (notamment CCBot et Bytespider) peuvent ignorer les Crawl-delay directives. Pour les bots qui les respectent, une valeur de 10 à 30 secondes réduit la charge serveur sans bloquer le crawl. Pour les bots qui ignorent cette directive, une règle WAF (Cloudflare) par user-agent est plus efficace.

Piège 5, Ne pas mettre à jour robots.txt après les nouveaux bots

De nouveaux bots IA apparaissent régulièrement. En 2025, Amazon Alexa AI, Grok (xAI), et plusieurs crawlers de LLMs open source ont été déployés. Vérifiez et mettez à jour votre robots.txt trimestriellement en consultant les annonces officielles des grandes entreprises IA.

Vérifier et tester sa configuration

Test via curl

Simulez le user-agent de chaque bot pour vérifier ce qu'il voit :

# Tester en tant que GPTBot
curl -A "Mozilla/5.0 AppleWebKit/537.36 (compatible; GPTBot/1.2; +https://openai.com/gptbot)" https://votresite.fr/robots.txt

# Tester en tant que PerplexityBot
curl -A "PerplexityBot/1.0" https://votresite.fr/robots.txt

Test via Google Search Console

L'outil de test robots.txt dans GSC (Paramètres > robots.txt) vous permet de tester n'importe quel user-agent contre votre fichier. Collez le user-agent string et l'URL à tester.

Surveillance des logs serveur

Les logs Nginx/Apache/Cloudflare montrent les requêtes de chaque bot avec leur user-agent réel. Filtrez par grep -i "gptbot\|oai-searchbot\|perplexitybot" pour voir leur activité. C'est aussi la méthode pour détecter des bots qui ignorent votre robots.txt.

FAQ, robots.txt et bots IA

Un Disallow sur GPTBot bloque-t-il ChatGPT Search ?: Non. GPTBot et OAI-SearchBot sont deux robots distincts. Bloquer GPTBot laisse OAI-SearchBot libre de crawler. Vous devez cibler chaque bot séparément selon vos objectifs.
robots.txt est-il la seule façon de bloquer les bots IA ?: Non. La balise meta robots (noai, noimageai), l'header X-Robots-Tag, et les règles WAF/Cloudflare sont des alternatives. robots.txt reste le signal le plus universel et le plus simple à maintenir.
Comment vérifier que mes règles robots.txt sont bien appliquées ?: Via GSC (outil de test robots.txt), via curl en simulant le user-agent, et via les logs serveur pour confirmer que les bots respectent vos directives.
Faut-il un Crawl-delay pour les bots IA ?: Seulement si votre serveur est sous pression. Les bots bien configurés (GPTBot, PerplexityBot) respectent les 429 et Retry-After. Attention : Googlebot ignore Crawl-delay, utilisez les paramètres GSC pour le réguler.

Checklist robots.txt bots IA (7 points)

La configuration robots.txt correspond à votre stratégie (visibilité max, entraînement seulement, ou défensive).
GPTBot et OAI-SearchBot ont des règles distinctes si vos objectifs diffèrent.
Les user-agent strings sont dans la bonne casse (GPTBot, OAI-SearchBot, PerplexityBot).
Les règles spécifiques précèdent la règle User-agent: * générique.
Le fichier a été testé via GSC et/ou curl pour chaque bot concerné.
Les logs serveur sont configurés pour surveiller l'activité des bots IA.
Une revue trimestrielle est planifiée pour intégrer les nouveaux bots IA.