自動クローリングとは、検索エンジンのボット(スパイダーまたはクローラーとも呼ばれる)がウェブを体系的に巡回し、ウェブページを発見、読み取り、インデックス化するプロセスです。GoogleのクローラーであるGooglebotは、インデックスを最新の状態に保つために、ウェブを継続的にクロールしています。
自動クローリングはどのように機能するのですか?
検索エンジンのクローラーは、既知のURLのリストから始まり、各ページにアクセスしてコンテンツを読み込み、ページ上のリンクをたどって新しいURLを発見します。このプロセスは何十億ものページにわたって継続的に繰り返されます。Googlebotがあなたのページをクロールすると、HTMLを読み込み、内部リンクと外部リンクをたどり、構造化データを評価し、これらの情報をすべてGoogleのインデックス作成インフラストラクチャに送信します。
Googleがあなたのサイトをクロールする方法に影響を与えるもの
- クロール予算: Google が一定期間内にサイトをクロールするページ数。価値の低いページが多い大規模サイトでは、この制限が限界に達する可能性があります。 クロールの予算 Googlebotが重要なコンテンツに到達する前に。
- TXT: サイトのルートディレクトリにあるファイルで、クローラーがクロールを許可されているページやセクション、または許可されていないページやセクションを指示するものです。
- 内部リンク: 内部リンクが一切張られていないページ(「孤立ページ」)は、クローラーによって完全に無視されることがよくあります。
- サーバー速度: サーバーの処理速度が遅い場合、Googlebotはサーバーへの負荷を軽減するために、1回の訪問でクロールするページ数を減らします。
- XML サイトマップ: Google Search Consoleにサイトマップを送信することで、Googlebotにクロールとインデックス登録を希望するURLを直接伝えることができます。
| 例: もしあなたのECサイトに50,000万点の製品ページがあり、さらに200,000万点のファセットナビゲーションURL(例:/products?color=red&size=M)が生成されている場合、Googlebotは実際の製品ページをクロールする代わりに、これらのフィルタページにクロール予算を浪費してしまいます。 |
よくあるご質問
Googleはどのくらいの頻度で私のサイトをクロールしますか?
クロール頻度は、サイトの権威性、更新頻度、サーバー速度によって大きく異なります。大手ニュースサイトは数分ごとにクロールされる場合もありますが、小規模なニュースサイトは数週間に一度しかクロールされない場合もあります。新しいコンテンツを公開し、リンクを獲得することで、一般的にクロール頻度は増加します。
Googleが特定のページをクロールするのを停止することはできますか?
はい。robots.txt を使用してセクション全体をブロックするか、個々のページに noindex メタタグを追加してください。robots.txt はクロールをブロックしますが、インデックス登録はブロックしないことに注意してください(他のサイトがリンクしている場合、ブロックされた URL でも Google がインデックス登録する可能性があります)。noindex タグは、ページがクロールされた場合でもインデックス登録を防止します。
関連用語: Googlebotが · クロール予算 · robots.txtの · サイトマップ · インデキシング