← Tous les articles

Technique

GPTBot, ClaudeBot, Google-Extended : la checklist pour ne pas être invisible aux IA

22 mai 2026 · 6 min de lecture · Équipe Citaire

Vous avez un site moderne, un contenu solide, des avis Google impeccables — et pourtant ChatGPT ne vous cite jamais. Avant de chercher loin, il y a un coupable fréquent : votre robots.txt bloque les crawlers des IA. Voici comment vérifier en 5 minutes et corriger en 5 autres.

Pourquoi les IA ont des crawlers séparés

Quand Google indexe votre site, il le fait avec son crawler classique Googlebot. Mais Google a aussi sorti Google-Extended: un user-agent distinct qui décide si votre contenu peut être utilisé pour entraîner Bard/Gemini ou alimenter l'Aperçu IA Google.

Bloquer Google-Extended ne casse pas votre SEO classique : vous restez dans Google Search. Mais vous disparaissez de toute la couche IA de Google. Beaucoup de sites le bloquent par défaut sans comprendre les conséquences.

Les 4 crawlers à surveiller

  • GPTBot — OpenAI, alimente ChatGPT et les modèles GPT. Bloqué par défaut sur beaucoup de sites pour des raisons de copyright.
  • ClaudeBot (et anthropic-ai) — Anthropic, alimente Claude.
  • Google-Extended— Google, alimente Bard/Gemini et l'Aperçu IA.
  • PerplexityBot — Perplexity, qui crawl en temps réel pour répondre aux questions.

La checklist en 10 minutes

1. Lisez votre robots.txt

Tapez https://votre-site.fr/robots.txt dans le navigateur. Cherchez les blocs commençant par User-agent: GPTBot, User-agent: ClaudeBot, User-agent: Google-Extended,User-agent: PerplexityBot. Pour chacun :

  • Si vous voyez Disallow: / juste en dessous : bloqué.
  • Si vous ne voyez aucun de ces user-agents : ils héritent du User-agent: *(donc autorisés si le wildcard l'est).

2. Décidez votre politique

Pour une PME francophone qui cherche de la visibilité : vous voulez tous les autoriser. C'est la position par défaut rationnelle.

Si vous avez une raison spécifique de bloquer (contenu sensible, copyright fort), bloquez sélectivement et documentez votre choix.

3. Corrigez votre robots.txt

Le robots.txt minimal qui marche pour Citaire-friendly :

User-agent: *
Allow: /

User-agent: GPTBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: PerplexityBot
Allow: /

Sitemap: https://votre-site.fr/sitemap.xml

4. Vérifiez après mise à jour

Re-chargez votre-site.fr/robots.txt dans un onglet privé pour confirmer la mise à jour est bien servie (les CDN peuvent avoir des caches longs). Comptez 24-48h pour que les crawlers re-fetchent le fichier et changent leur comportement.

5. Vérifiez la cohérence côté méta

Certains sites bloquent aussi les IA via des balises <meta name="robots"> ou des headers HTTP X-Robots-Tag. Vérifiez qu'il n'y a pas de noai, noimageai, ou Google-Extended: noindex qui contredisent votre robots.txt.

Test rapide avec Citaire

Le diagnostic « Signaux hors-citation » de Citaire vérifie automatiquement ces 4 crawlers sur le site de votre projet. En un clic, vous savez si un blocage involontaire vous coûte de la visibilité. C'est l'un des 3 signaux mesurés sans aucune API tierce.

Le piège fréquent : les outils tiers qui bloquent pour vous

Plusieurs services bloquent les crawlers IA à votre place sans que vous le sachiez :

  • Cloudflarea un toggle « Block AI bots » dans le dashboard qui blackliste tout d'un coup.
  • Certaines apps WordPress de protection anti-scraping bloquent les user-agents IA agressivement.
  • Des plugins SEO mal configurés écrivent un Disallow: / sous Google-Extended en pensant « protéger le contenu ».

Vérifiez explicitement ces réglages si votre robots.txt vous semble correct mais que vous restez invisible aux IA.

En résumé

Avant d'investir dans du contenu ou des relations presse, faites sauter ce blocage. C'est une correction à coût nul qui débloque immédiatement le potentiel de toutes les autres actions que vous prendrez ensuite. La pire situation, c'est de publier 50 articles d'expert qu'aucune IA ne pourra lire.

Testez votre marque gratuitement

Trois requêtes typiques de votre secteur, trois moteurs, en 30 secondes. Sans inscription.

Tester ma visibilité