Tous les sites web reçoivent du trafic provenant de robots, mais tous ne sont pas fiables. Certains se font passer pour des Googlebots, espérant contourner votre sécurité et récupérer votre contenu ou surcharger votre serveur. Pour les professionnels du référencement et les propriétaires de sites web, savoir comment vérifier Googlebot et les autres robots d'exploration de Google est crucial à la fois pour la sécurité et pour l'analyse précise de votre activité d'exploration.
Dans ce guide, nous aborderons ce que signifie la vérification du robot d'exploration, pourquoi elle est importante et les méthodes étape par étape que vous pouvez utiliser pour confirmer si un visiteur est un véritable robot d'exploration Google ou un imitateur.
Pourquoi devriez-vous vérifier Googlebot
1. Protégez votre site Web contre les faux robots
Les faux robots peuvent gaspiller votre bande passante, surcharger votre serveur ou même tenter des activités malveillantes. Ils se font souvent passer pour des « Googlebot » pour éviter d'être bloqués.
2. Maintenir des données SEO précises
Si vous ne parvenez pas à distinguer les vrais robots d'exploration Google des faux, vos statistiques d'exploration et vos journaux de serveur peuvent être trompeurs. La vérification vous permet de savoir quelles requêtes proviennent réellement de Google.
3. Évitez les blocages erronés
Bloquer le trafic réel des robots Google peut empêcher l'exploration et l'indexation correctes de votre site. La vérification vous permet d'autoriser les robots concernés tout en filtrant les imposteurs.
Comment vérifier Googlebot
Étape 1 : vérifier la chaîne de l'agent utilisateur
Chaque robot s'identifie à l'aide d'un chaîne d'agent utilisateur. Par exemple:
-
Googlebot(exploration générale du Web) -
Googlebot-Image(exploration d'images) -
Googlebot-Video(exploration vidéo) -
Googlebot-News(Exploration de Google Actualités)
Cependant, les chaînes d'agent utilisateur sont facile à simuler, cela ne devrait donc jamais être votre seule méthode. Considérez cela comme une « première étape », et non comme une vérification finale.
Étape 2 : effectuer une recherche DNS inversée
Le moyen le plus fiable de vérifier Googlebot est de vérifier son adresse IP. Voici comment :
-
Prenez l'adresse IP du robot d'exploration à partir des journaux de votre serveur.
-
Effectuer une recherche DNS inversée pour voir le nom d'hôte.
-
Si cela se termine par
googlebot.comorgoogle.com, cela peut être légitime.
-
-
Effectuer une recherche DNS directe sur le nom d'hôte pour confirmer qu'il correspond à la même IP.
Exemple de commande (terminal Linux/Mac) :
Cela peut renvoyer quelque chose comme :crawl-66-249-66-1.googlebot.com
Ensuite, vérifiez :
Si l'adresse IP renvoyée correspond à l'adresse d'origine, le robot d'exploration est un véritable Googlebot.
Étape 3 : utiliser les plages IP de Google
Google fournit les plages IP officielles de ses robots d'exploration. Vous pouvez comparer l'adresse IP du visiteur avec les plages publiées ci-dessous :
Plages d'adresses IP de Googlebot
Si l'adresse IP se situe en dehors de ces plages, il ne s'agit pas d'un véritable robot d'exploration Google.
Étape 4 : Analyse automatisée des journaux (facultative pour les grands sites)
Si vous gérez un site web volumineux, la vérification manuelle peut prendre du temps. Dans ce cas, vous pouvez utiliser des outils d'analyse de journaux ou des scripts pour vérifier automatiquement les adresses IP des robots d'exploration par rapport aux plages Google.
Certains outils de sécurité de serveur et pare-feu incluent également des vérifications intégrées de l’authenticité des robots d’exploration.
Vérification des autres robots d'exploration Google
Google dispose de plusieurs robots d'exploration spécialisés, outre Googlebot. En voici quelques-uns que vous pourriez rencontrer :
-
AdsBot: Utilisé pour les contrôles de qualité de Google Ads
-
API-Google: Récupère des données pour les services API Google
-
Feedfetcher: Récupère les flux RSS et Atom
-
Google Read Aloud: Récupère le contenu pour les services de synthèse vocale
Le même processus de vérification (recherche DNS inversée + vérification IP) s'applique également à ces robots d'exploration.
Meilleures pratiques de vérification
-
Toujours confirmer avec les recherches DNS au lieu de simplement faire confiance aux chaînes de l'agent utilisateur.
-
Liste blanche des adresses IP Google vérifiées pour éviter de les bloquer par erreur.
-
Bloquer les robots d'exploration inconnus ou suspects qui échouent à la vérification.
-
Vérifiez régulièrement les journaux si vous gérez un site volumineux ou manipulez des données sensibles.
-
Restez à jour avec la documentation de Google sur les robots d'exploration et les plages IP.