Référence complète : user-agents des bots IA en 2026
Chaque entreprise IA déploie plusieurs bots avec des rôles distincts. Voici la référence complète des user-agent strings à connaître (voir aussi notre guide d'optimisation technique) :
| User-agent | Entreprise | Rôle | Impact si bloqué |
|---|---|---|---|
| GPTBot | OpenAI | Entraînement modèles | Exclusion des futurs corpus OpenAI |
| OAI-SearchBot | OpenAI | ChatGPT Search (retrieval) | Non cité dans ChatGPT Search |
| ChatGPT-User | OpenAI | Navigation ChatGPT (plugins, browsing) | Pas de navigation ChatGPT sur votre site |
| PerplexityBot | Perplexity | Indexation + retrieval Perplexity | Non cité dans Perplexity |
| Perplexity-User | Perplexity | Requêtes utilisateur Perplexity | Réduction visibilité Perplexity |
| ClaudeBot | Anthropic | Entraînement + retrieval Claude | Exclusion corpus Anthropic |
| Claude-Web | Anthropic | Navigation web Claude | Pas de navigation Claude sur votre site |
| anthropic-ai | Anthropic | Crawler Anthropic générique | Exclusion corpus Anthropic |
| Google-Extended | Entraînement Gemini | Exclusion corpus Gemini (pas les SERP) | |
| Applebot-Extended | Apple | Entraînement Apple Intelligence | Exclusion corpus Apple Intelligence |
| CCBot | Common Crawl | Corpus open source (utilisé par de nombreux LLMs) | Exclusion de nombreux corpus LLM open source |
| cohere-ai | Cohere | Entraînement modèles Cohere | Exclusion corpus Cohere |
| meta-externalagent | Meta | Entraînement Llama / Meta AI | Exclusion corpus Meta |
| Bytespider | ByteDance | Entraînement modèles ByteDance | Exclusion corpus ByteDance |
Les 4 configurations robots.txt types
Configuration 1, Tout autoriser (stratégie maximale-visibilité)
Aucune directive spécifique aux bots IA : ils suivent les règles générales de votre robots.txt. Recommandé si votre objectif est la visibilité maximale dans tous les LLMs et moteurs IA.
User-agent: *
Disallow:
# Sitemap
Sitemap: https://votresite.fr/sitemap.xml Configuration 2, Bloquer l'entraînement, autoriser le retrieval
Bloquer les bots d'entraînement (GPTBot, Google-Extended, CCBot, meta-externalagent, Bytespider) tout en autorisant les bots de retrieval temps réel (OAI-SearchBot, PerplexityBot). Vous gardez la visibilité dans ChatGPT Search et Perplexity sans alimenter les corpus d'entraînement.
User-agent: GPTBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: cohere-ai
Disallow: /
User-agent: meta-externalagent
Disallow: /
User-agent: Bytespider
Disallow: /
User-agent: anthropic-ai
Disallow: /
User-agent: Applebot-Extended
Disallow: /
# Retrieval autorisé
User-agent: OAI-SearchBot
Disallow:
User-agent: ChatGPT-User
Disallow:
User-agent: PerplexityBot
Disallow:
User-agent: Perplexity-User
Disallow:
User-agent: ClaudeBot
Disallow:
User-agent: *
Disallow:
Sitemap: https://votresite.fr/sitemap.xml Configuration 3, Tout bloquer (stratégie défensive)
Bloquer tous les bots IA connus. À utiliser uniquement si vous avez des raisons légales ou commerciales fortes (contenu propriétaire, droits d'auteur, concurrence directe avec les LLMs). Impact : quasi-absence dans les réponses des LLMs et des moteurs IA.
User-agent: GPTBot
Disallow: /
User-agent: OAI-SearchBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
User-agent: PerplexityBot
Disallow: /
User-agent: Perplexity-User
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Claude-Web
Disallow: /
User-agent: anthropic-ai
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: Applebot-Extended
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: cohere-ai
Disallow: /
User-agent: meta-externalagent
Disallow: /
User-agent: Bytespider
Disallow: /
User-agent: *
Disallow:
Sitemap: https://votresite.fr/sitemap.xml Configuration 4, Blocage sélectif par dossier
Autoriser le crawl général mais bloquer des sections spécifiques (contenu payant, données propriétaires, archives). Utile pour les médias et les SaaS avec une partie publique et une partie privée.
User-agent: GPTBot
Disallow: /contenu-premium/
Disallow: /donnees-propriétaires/
Disallow: /app/
User-agent: *
Disallow:
Sitemap: https://votresite.fr/sitemap.xml Pièges fréquents de configuration
Piège 1, Confondre GPTBot et OAI-SearchBot
C'est l'erreur la plus commune. Un site qui bloque GPTBot pensant bloquer ChatGPT Search n'a bloqué que l'entraînement OpenAI. OAI-SearchBot continue de crawler librement. Vérifiez que vos règles ciblent les bons user-agents pour vos objectifs réels.
Piège 2, Ordre des règles robots.txt
Les robots respectent la première règle qui correspond à leur user-agent. Si vous avez
un User-agent: * Disallow: / en tête de fichier, il sera prioritaire sur les règles
spécifiques qui suivent pour les bots qui ne matchent pas un user-agent précis. Mettez toujours
les règles spécifiques avant la règle *.
Piège 3, La casse dans les user-agents
Les user-agent strings dans robots.txt sont sensibles à la casse. GPTBot (P majuscule)
est différent de gptbot. Utilisez toujours les user-agents dans la casse officielle
publiée par chaque entreprise (référence dans le tableau ci-dessus).
Piège 4, Oublier le Crawl-delay pour les bots agressifs
Certains bots moins well-behaved (notamment CCBot et Bytespider) peuvent ignorer les
Crawl-delay directives. Pour les bots qui les respectent, une valeur de 10 à 30
secondes réduit la charge serveur sans bloquer le crawl. Pour les bots qui ignorent cette
directive, une règle WAF (Cloudflare) par user-agent est plus efficace.
Piège 5, Ne pas mettre à jour robots.txt après les nouveaux bots
De nouveaux bots IA apparaissent régulièrement. En 2025, Amazon Alexa AI, Grok (xAI), et plusieurs crawlers de LLMs open source ont été déployés. Vérifiez et mettez à jour votre robots.txt trimestriellement en consultant les annonces officielles des grandes entreprises IA.
Vérifier et tester sa configuration
Test via curl
Simulez le user-agent de chaque bot pour vérifier ce qu'il voit :
# Tester en tant que GPTBot
curl -A "Mozilla/5.0 AppleWebKit/537.36 (compatible; GPTBot/1.2; +https://openai.com/gptbot)" https://votresite.fr/robots.txt
# Tester en tant que PerplexityBot
curl -A "PerplexityBot/1.0" https://votresite.fr/robots.txt Test via Google Search Console
L'outil de test robots.txt dans GSC (Paramètres > robots.txt) vous permet de tester n'importe quel user-agent contre votre fichier. Collez le user-agent string et l'URL à tester.
Surveillance des logs serveur
Les logs Nginx/Apache/Cloudflare montrent les requêtes de chaque bot avec leur user-agent réel.
Filtrez par grep -i "gptbot\|oai-searchbot\|perplexitybot" pour voir leur activité.
C'est aussi la méthode pour détecter des bots qui ignorent votre robots.txt.
FAQ, robots.txt et bots IA
- Un Disallow sur GPTBot bloque-t-il ChatGPT Search ?
- Non. GPTBot et OAI-SearchBot sont deux robots distincts. Bloquer GPTBot laisse OAI-SearchBot libre de crawler. Vous devez cibler chaque bot séparément selon vos objectifs.
- robots.txt est-il la seule façon de bloquer les bots IA ?
-
Non. La balise meta robots (
noai,noimageai), l'header X-Robots-Tag, et les règles WAF/Cloudflare sont des alternatives. robots.txt reste le signal le plus universel et le plus simple à maintenir. - Comment vérifier que mes règles robots.txt sont bien appliquées ?
- Via GSC (outil de test robots.txt), via curl en simulant le user-agent, et via les logs serveur pour confirmer que les bots respectent vos directives.
- Faut-il un Crawl-delay pour les bots IA ?
- Seulement si votre serveur est sous pression. Les bots bien configurés (GPTBot, PerplexityBot) respectent les 429 et Retry-After. Attention : Googlebot ignore Crawl-delay, utilisez les paramètres GSC pour le réguler.
Checklist robots.txt bots IA (7 points)
- La configuration robots.txt correspond à votre stratégie (visibilité max, entraînement seulement, ou défensive).
- GPTBot et OAI-SearchBot ont des règles distinctes si vos objectifs diffèrent.
- Les user-agent strings sont dans la bonne casse (GPTBot, OAI-SearchBot, PerplexityBot).
- Les règles spécifiques précèdent la règle User-agent: * générique.
- Le fichier a été testé via GSC et/ou curl pour chaque bot concerné.
- Les logs serveur sont configurés pour surveiller l'activité des bots IA.
- Une revue trimestrielle est planifiée pour intégrer les nouveaux bots IA.