Automatisiertes Crawling

Automatisiertes Crawling ist der Prozess, bei dem Suchmaschinen-Bots (auch Spider oder Crawler genannt) das Web systematisch durchsuchen, um Webseiten zu finden, zu lesen und zu indexieren. Der Crawler von Google, der Googlebot, durchsucht das Web kontinuierlich, um seinen Index aktuell zu halten.

Wie funktioniert automatisiertes Crawling?

Suchmaschinen-Crawler beginnen mit einer Liste bekannter URLs, besuchen jede Seite, lesen deren Inhalt und folgen den Links, um neue URLs zu entdecken. Dieser Prozess wiederholt sich kontinuierlich für Milliarden von Seiten. Wenn der Googlebot Ihre Seite crawlt, liest er den HTML-Code, folgt internen und externen Links, wertet strukturierte Daten aus und sendet all diese Informationen an die Indexierungsinfrastruktur von Google zurück.

Was beeinflusst, wie Google Ihre Website crawlt?

  • Budget für die Kriechkellerarbeit: Die Anzahl der Seiten, die Google innerhalb eines bestimmten Zeitraums auf Ihrer Website crawlt. Große Websites mit vielen Seiten mit geringem Wert können dieses Limit schnell erreichen. Budget crawlen bevor der Googlebot wichtige Inhalte erreicht.
  • TXT: Eine Datei im Stammverzeichnis Ihrer Website, die Crawlern mitteilt, welche Seiten oder Abschnitte sie durchsuchen dürfen bzw. nicht durchsuchen dürfen.
  • Interne Verlinkung: Seiten ohne interne Links, die auf sie verweisen („verwaiste Seiten“), werden von Crawlern oft vollständig übersehen.
  • Servergeschwindigkeit: Langsame Server veranlassen Googlebot dazu, pro Besuch weniger Seiten zu crawlen, um eine Überlastung Ihres Servers zu vermeiden.
  • XML-Sitemap: Durch das direkte Einreichen einer Sitemap in der Google Search Console teilen Sie dem Googlebot mit, welche URLs gecrawlt und indexiert werden sollen.
Ejemplo: Wenn Ihre E-Commerce-Website 50,000 Produktseiten hat, aber auch 200,000 facettierte Navigations-URLs generiert (wie /products?color=red&size=M), verschwendet der Googlebot Crawling-Budget für diese Filterseiten, anstatt Ihre eigentlichen Produktseiten zu crawlen.

FAQs

Wie oft crawlt Google meine Website?

Die Häufigkeit des Crawlings hängt stark von der Autorität der Website, der Aktualisierungsfrequenz und der Servergeschwindigkeit ab. Eine große Nachrichtenseite wird möglicherweise alle paar Minuten gecrawlt. Eine kleine, neue Website hingegen nur alle paar Wochen. Die Veröffentlichung neuer Inhalte und der Aufbau von Backlinks erhöhen die Crawling-Frequenz in der Regel.

Kann ich Google daran hindern, bestimmte Seiten zu crawlen?

Ja. Verwenden Sie robots.txt, um ganze Bereiche zu blockieren, oder fügen Sie einzelnen Seiten ein noindex-Meta-Tag hinzu. Beachten Sie, dass robots.txt das Crawling blockiert, aber nicht die Indexierung (Google kann eine blockierte URL weiterhin indexieren, wenn andere Websites darauf verlinken). Das noindex-Tag verhindert die Indexierung selbst dann, wenn die Seite gecrawlt wird.

Verwandte Begriffe: Googlebot · Crawling-Budget · Robots.txt · Sitemap · Indizierung

Rakete

Automatisieren Sie Ihre SEO

Sie sind nur einen Klick davon entfernt, Ihren organischen Verkehr zu steigern!

Beginnen Sie jetzt mit der Optimierung!

SEO Glossar