Googlebotのようなウェブ、画像、動画用の一般的なクローラーの他に、Googleは 特殊なクローラーこれらは、サイトの検証、構造化データのテスト、広告の品質チェックなど、特定の目的のために設計されています。サイト全体を定期的にクロールするわけではありませんが、タスクを完了するために重要なタイミングで表示されます。
特殊ケースクローラーが重要な理由
これらのクローラーは毎日のインデックス作成には影響しないかもしれませんが、サイトの検証方法、構造化データのテスト方法、広告のパフォーマンスに影響を与える可能性があります。誤ってブロックした場合、 robots.txtの一部の Google サービスが正しく動作しない可能性があります。
Googleの特殊ケースクローラー
よく見かける最も一般的なものは次のとおりです。
| クローラー名 | ユーザーエージェント文字列 | 目的 |
| API-Google | API-Google (+https://developers.google.com/webmasters/APIs-Google.html) | Google API がコンテンツにアクセスするために使用します。 |
| フィードフェッチャー | FeedFetcher-Google | Google ニュースやポッドキャストなどの Google サービスの RSS/Atom フィードを取得します。 |
| Google 読み上げ | Google 読み上げ | テキスト読み上げサービス用のコンテンツを取得します(例: Google アシスタントによる記事の読み上げ)。 |
| Web上のデュプレックス | Google 検査ツール | ユーザーの操作(サービスの予約など)をシミュレートして、ユーザビリティをテストします。 |
| Google サイト検証 | Googleサイト検証 | Google Search Console でサイトの所有権を確認するときに使用されます。 |
| AdsBot(モバイル&デスクトップ) | AdsBot-Google-モバイル / AdsBot-Google | Google 広告のランディング ページの品質をチェックします。 |
| その他のテストツール | Google-InspectionTool(Lighthouse および Rich Results テストで使用) | Google ツールでテストを実行するときにクロールします。 |
覚えておくべき重要なこと
-
特殊なケースのクローラーは通常 トリガーされたときのみ (例: サイトを検証する場合や構造化データ テストを実行する場合)。
-
彼ら サイトをインデックスしない Googlebot のようなセキュリティ対策は講じていませんが、機能やツールが適切に動作するかどうかは確認しています。
-
robots.txt でそれらをブロックすると、重要な Google サービス(サイトの検証や広告のチェックなど)が機能しなくなる可能性があります。
どのクローラーがどれなのか分からない場合は、 Googleの一般的なクローラーのリスト.
特殊なクローラーを検証する方法
時々、サーバーログに見慣れないボットが見つかり、それが本当にGoogleのものなのか、それともGoogleを装った偽のボットなのか疑問に思うことがあります。 ユーザーエージェント文字列 ( AdsBot-Google or FeedFetcher-Google) だけでは不十分です。スパマーがそれらの名前をコピーできるためです。
そのため、Googleはクローラーを認証することを推奨しています。 IPアドレス。 あなたがそれを行う方法は次のとおりです:
ステップ1: クローラーのIPアドレスを見つける
-
あなたのチェック サーバーログ ボット要求の IP アドレスを確認します。
ステップ2: 逆DNSルックアップを実行する
-
その IP に対して逆 DNS ルックアップを実行します。
-
結果は、
googlebot.comorgoogle.com.
ステップ3: DNSフォワードルックアップで確認する
-
そのドメイン名を再度検索して、 同じIPアドレス.
-
一致する場合、クローラーは正規の Google クローラーです。
例(簡略化)
-
IPからの訪問を確認
66.249.66.1. -
逆DNSルックアップ → 表示
crawl-66-249-66-1.googlebot.com. -
そのホスト名でDNSを前方参照→返される
66.249.66.1.
実際の Google クローラーとして検証済み。