Technique
GPTBot, ClaudeBot, Google-Extended : la checklist pour ne pas être invisible aux IA
22 mai 2026 · 6 min de lecture · Équipe Citaire
Vous avez un site moderne, un contenu solide, des avis Google impeccables — et pourtant ChatGPT ne vous cite jamais. Avant de chercher loin, il y a un coupable fréquent : votre robots.txt bloque les crawlers des IA. Voici comment vérifier en 5 minutes et corriger en 5 autres.
Pourquoi les IA ont des crawlers séparés
Quand Google indexe votre site, il le fait avec son crawler classique Googlebot. Mais Google a aussi sorti Google-Extended: un user-agent distinct qui décide si votre contenu peut être utilisé pour entraîner Bard/Gemini ou alimenter l'Aperçu IA Google.
Bloquer Google-Extended ne casse pas votre SEO classique : vous restez dans Google Search. Mais vous disparaissez de toute la couche IA de Google. Beaucoup de sites le bloquent par défaut sans comprendre les conséquences.
Les 4 crawlers à surveiller
GPTBot— OpenAI, alimente ChatGPT et les modèles GPT. Bloqué par défaut sur beaucoup de sites pour des raisons de copyright.ClaudeBot(etanthropic-ai) — Anthropic, alimente Claude.Google-Extended— Google, alimente Bard/Gemini et l'Aperçu IA.PerplexityBot— Perplexity, qui crawl en temps réel pour répondre aux questions.
La checklist en 10 minutes
1. Lisez votre robots.txt
Tapez https://votre-site.fr/robots.txt dans le navigateur. Cherchez les blocs commençant par User-agent: GPTBot, User-agent: ClaudeBot, User-agent: Google-Extended,User-agent: PerplexityBot. Pour chacun :
- Si vous voyez
Disallow: /juste en dessous : bloqué. - Si vous ne voyez aucun de ces user-agents : ils héritent du
User-agent: *(donc autorisés si le wildcard l'est).
2. Décidez votre politique
Pour une PME francophone qui cherche de la visibilité : vous voulez tous les autoriser. C'est la position par défaut rationnelle.
Si vous avez une raison spécifique de bloquer (contenu sensible, copyright fort), bloquez sélectivement et documentez votre choix.
3. Corrigez votre robots.txt
Le robots.txt minimal qui marche pour Citaire-friendly :
User-agent: * Allow: / User-agent: GPTBot Allow: / User-agent: ClaudeBot Allow: / User-agent: Google-Extended Allow: / User-agent: PerplexityBot Allow: / Sitemap: https://votre-site.fr/sitemap.xml
4. Vérifiez après mise à jour
Re-chargez votre-site.fr/robots.txt dans un onglet privé pour confirmer la mise à jour est bien servie (les CDN peuvent avoir des caches longs). Comptez 24-48h pour que les crawlers re-fetchent le fichier et changent leur comportement.
5. Vérifiez la cohérence côté méta
Certains sites bloquent aussi les IA via des balises <meta name="robots"> ou des headers HTTP X-Robots-Tag. Vérifiez qu'il n'y a pas de noai, noimageai, ou Google-Extended: noindex qui contredisent votre robots.txt.
Test rapide avec Citaire
Le diagnostic « Signaux hors-citation » de Citaire vérifie automatiquement ces 4 crawlers sur le site de votre projet. En un clic, vous savez si un blocage involontaire vous coûte de la visibilité. C'est l'un des 3 signaux mesurés sans aucune API tierce.
Le piège fréquent : les outils tiers qui bloquent pour vous
Plusieurs services bloquent les crawlers IA à votre place sans que vous le sachiez :
- Cloudflarea un toggle « Block AI bots » dans le dashboard qui blackliste tout d'un coup.
- Certaines apps WordPress de protection anti-scraping bloquent les user-agents IA agressivement.
- Des plugins SEO mal configurés écrivent un
Disallow: /sousGoogle-Extendeden pensant « protéger le contenu ».
Vérifiez explicitement ces réglages si votre robots.txt vous semble correct mais que vous restez invisible aux IA.
En résumé
Avant d'investir dans du contenu ou des relations presse, faites sauter ce blocage. C'est une correction à coût nul qui débloque immédiatement le potentiel de toutes les autres actions que vous prendrez ensuite. La pire situation, c'est de publier 50 articles d'expert qu'aucune IA ne pourra lire.
Testez votre marque gratuitement
Trois requêtes typiques de votre secteur, trois moteurs, en 30 secondes. Sans inscription.
Tester ma visibilité