robots.txt et crawlers IA : guide pratique pour les PME françaises
Dans cet article
robots.txt et crawlers IA : comment contrôler votre visibilité dans ChatGPT, Perplexity et Gemini
Temps de lecture : 8 minutes — Mise en œuvre : 10 minutes
Vous avez peut-être remarqué que vos concurrents apparaissent dans ChatGPT quand des clients recherchent vos produits ou services — et pas vous. Une des causes souvent ignorée : votre fichier robots.txt bloque peut-être les crawlers IA sans que vous le sachiez.
Dans ce guide, vous allez apprendre ce que sont les crawlers IA, comment fonctionne robots.txt, et comment configurer les deux pour maximiser votre visibilité dans les moteurs IA — en 10 minutes chrono.
Qu’est-ce qu’un crawler IA ?
Un crawler IA (ou bot IA) est un programme automatique qui parcourt le web pour alimenter les bases de connaissance des grands modèles de langage comme ChatGPT, Perplexity ou Gemini.
Contrairement aux robots Google qui indexent pour les résultats de recherche classiques, ces bots collectent des données pour deux usages distincts :
- Entraîner des modèles : nourrir la connaissance générale de l’IA (le “cerveau” de ChatGPT)
- Alimenter des réponses en temps réel : quand un utilisateur active la recherche web dans ChatGPT, un crawler visite votre site en direct pour répondre à sa question
Les deux sont importants pour votre visibilité. Et les deux respectent (en principe) votre fichier robots.txt.
Les principaux crawlers IA en 2024
| Crawler | IA associée | User-Agent | Impact sur votre visibilité |
|---|---|---|---|
| GPTBot | ChatGPT (OpenAI) | GPTBot |
Très élevé — 180M utilisateurs |
| ChatGPT-User | ChatGPT (navigation web) | ChatGPT-User |
Élevé — réponses en temps réel |
| anthropic-ai | Claude (Anthropic) | anthropic-ai |
Moyen — croissance rapide |
| Claude-Web | Claude (navigation) | Claude-Web |
Moyen |
| PerplexityBot | Perplexity AI | PerplexityBot |
Élevé — moteur de recherche IA |
| Google-Extended | Gemini (Google) | Google-Extended |
Élevé — intégré à Google |
| FacebookBot | Meta AI | FacebookBot |
Moyen |
| Applebot-Extended | Apple Intelligence | Applebot-Extended |
Émergent |
Chacun de ces bots respecte (en principe) les instructions de votre fichier robots.txt. Bloquer l’un d’eux, c’est potentiellement disparaître de l’IA correspondante.
robots.txt : rappel rapide pour les non-techniciens
Le fichier robots.txt est un simple fichier texte placé à la racine de votre site web. Il donne des instructions aux robots d’exploration sur ce qu’ils peuvent ou ne peuvent pas visiter.
# Exemple : robots.txt basique
User-agent: *
Disallow: /admin/
Allow: /
Sitemap: https://www.votresite.fr/sitemap.xml
Ce fichier est totalement public — n’importe qui peut le consulter en tapant https://votresite.fr/robots.txt dans un navigateur. C’est même un bon moyen de vérifier ce que vos concurrents autorisent ou bloquent.
Ce que robots.txt peut faire
- Autoriser explicitement certains bots à explorer votre contenu
- Bloquer des bots spécifiques (y compris les crawlers IA)
- Exclure des sections précises de votre site (espace client, admin)
- Orienter vers votre sitemap pour faciliter l’exploration complète
Ce que robots.txt ne peut pas faire
- Garantir la confidentialité (ce n’est pas une protection de sécurité)
- Forcer le respect des règles (les bots malveillants l’ignorent)
- Empêcher le référencement si votre page est liée depuis d’autres sites
Faut-il bloquer les crawlers IA ?
C’est LA question que se posent toutes les PME. La réponse courte : pour la grande majorité des PME françaises, non.
Si vous voulez apparaître dans ChatGPT, Perplexity et Gemini ? Autorisez les crawlers
Les IA consultent votre site pour répondre aux questions des utilisateurs. Si vous bloquez GPTBot, ChatGPT ne pourra pas citer votre entreprise quand un client pose la question “Quel est le meilleur comptable à Bordeaux ?” ou “Recommande-moi une agence de communication à Lyon”.
Votre concurrent non bloqué, lui, sera cité. C’est aussi simple que ça.
Si vous avez du contenu sensible ou propriétaire ? Bloquez sélectivement
Certains contenus ne doivent effectivement pas alimenter des modèles IA : base de données clients, tarifs internes, contenu premium réservé aux abonnés, documents confidentiels. Dans ce cas, bloquez ces sections spécifiques, pas l’ensemble du site.
Le calcul coût/bénéfice pour une PME
| Scénario | Impact |
|---|---|
| Tout autoriser | Visibilité maximale dans toutes les IA |
| Bloquer GPTBot uniquement | Invisible dans ChatGPT — perte majeure |
| Bloquer toutes les IA | Invisible dans tous les moteurs IA |
| Blocage sélectif (pages sensibles) | Visibilité préservée, données protégées |
Recommandation pour 95% des PME françaises : tout autoriser, sauf les sections vraiment sensibles.
3 étapes pour configurer robots.txt en 10 minutes
Étape 1 : Vérifier votre robots.txt actuel
Tapez dans votre navigateur :
https://votresite.fr/robots.txt
Cherchez les lignes contenant GPTBot, PerplexityBot ou Google-Extended. Si vous voyez :
User-agent: GPTBot
Disallow: /
…ChatGPT est bloqué sur tout votre site. Si vous ne trouvez pas ces noms, regardez si vous avez une règle générale User-agent: * / Disallow: / — elle bloque tout le monde, IA incluses.
Si votre fichier est vide ou inexistant, les crawlers ont accès à tout — c’est la configuration par défaut.
Étape 2 : Optimiser pour la visibilité IA
Voici une configuration recommandée pour une PME qui veut maximiser sa visibilité dans tous les moteurs IA :
# robots.txt optimisé pour la visibilité IA — PME française
# Dernière mise à jour : mars 2026
# Crawlers IA majeurs — autorisés explicitement
User-agent: GPTBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: anthropic-ai
Allow: /
User-agent: Claude-Web
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Google-Extended
Allow: /
User-agent: FacebookBot
Allow: /
User-agent: Applebot-Extended
Allow: /
# Tous les autres robots (Google, Bing, etc.)
User-agent: *
Allow: /
# Bloquer les sections sensibles sur tous les robots
User-agent: *
Disallow: /admin/
Disallow: /wp-admin/
Disallow: /espace-client/
Disallow: /contenu-premium/
# Sitemap — aide tous les robots à trouver votre contenu
Sitemap: https://votresite.fr/sitemap.xml
Sur WordPress, plusieurs façons de modifier robots.txt :
– Rank Math SEO ? Outils avancés ? Modifier robots.txt (le plus simple)
– Yoast SEO ? Outils ? Éditeur de fichiers ? robots.txt
– Via FTP/cPanel : le fichier se trouve à la racine de votre installation WordPress
Étape 3 : Tester et valider
Après modification, validez avec Google Search Console :
1. Ouvrez Search Console ? Paramètres (en bas à gauche)
2. Cliquez sur robots.txt sous “Exploration”
3. Utilisez l’outil de test intégré pour tester des URL spécifiques
4. Vérifiez que vos pages principales sont bien “Autorisées”
Vous pouvez aussi utiliser l’outil gratuit robots.txt Tester disponible en ligne — tapez simplement “robots.txt tester” dans votre moteur de recherche.
Attendez 24 à 48 heures avant que les changements soient pleinement pris en compte par les crawlers.
Les 3 erreurs robots.txt les plus courantes chez les PME françaises
Erreur #1 : Un robots.txt hérité qui bloque tout
Beaucoup de PME ont un fichier configuré par un prestataire il y a 5 ans avec User-agent: * / Disallow: /. Résultat : absolument aucun robot ne peut accéder au site — ni Google, ni les IA. Cette erreur est plus courante qu’on ne le croit. Vérifiez dès maintenant.
Erreur #2 : Bloquer GPTBot mais oublier les autres crawlers IA
Si vous autorisez GPTBot mais ne mentionnez pas Google-Extended, Gemini peut considérer la règle générale User-agent: * et appliquer des restrictions. Soyez explicites pour chaque crawler IA majeur.
Erreur #3 : Pas de sitemap référencé dans robots.txt
Un robots.txt sans ligne Sitemap: prive les crawlers d’une carte de votre site. Ils peuvent quand même indexer, mais moins efficacement. Ajoutez toujours l’URL de votre sitemap XML — ça prend 10 secondes et améliore significativement l’exploration.
Aller plus loin : combiner robots.txt et llms.txt
robots.txt est le premier niveau de configuration — il ouvre (ou ferme) la porte aux crawlers. Pour aller encore plus loin, le standard émergent llms.txt permet de guider activement les IA sur votre contenu le plus important.
Là où robots.txt dit “vous pouvez entrer”, llms.txt dit “voici qui nous sommes, voici nos services, et voici les pages que vous devriez lire en priorité pour parler de nous correctement”.
Un site avec les deux bien configurés a une visibilité IA véritablement optimisée :
– robots.txt ? ouvre l’accès aux bons crawlers
– llms.txt ? oriente les IA vers votre contenu le plus pertinent
(Consultez notre guide complet sur llms.txt pour les PME françaises)
Passez à l’action : auditez votre visibilité IA complète
robots.txt est l’un des premiers points à vérifier — mais ce n’est qu’un des 40+ facteurs qui déterminent si votre PME apparaît dans ChatGPT, Perplexity ou Gemini.
Schema.org, contenu E-E-A-T, vitesse de chargement, mentions de marque, llms.txt, qualité des pages “À propos”… L’audit GEO complet analyse tout ça en quelques minutes et vous donne un plan d’action priorisé, spécifique à votre secteur.
? Obtenez votre audit GEO gratuit sur go.incwo.com — en 2 minutes, découvrez exactement pourquoi votre site est (ou n’est pas) visible dans les IA, et les 3 actions prioritaires pour y remédier.
Article rédigé par l’équipe incwo — experts en visibilité IA pour les TPE/PME françaises.
Dernière mise à jour : mars 2026