Crawling automatizzato

La scansione automatizzata è il processo mediante il quale i bot dei motori di ricerca (chiamati anche spider o crawler) esplorano sistematicamente il web per scoprire, leggere e indicizzare le pagine web. Il crawler di Google, chiamato Googlebot, scansiona continuamente il web per mantenere aggiornato il suo indice.

Come funziona la scansione automatizzata?

I crawler dei motori di ricerca partono da un elenco di URL conosciuti, visitano ogni pagina, ne leggono il contenuto e seguono i link presenti sulla pagina per scoprire nuovi URL. Questo processo si ripete continuamente su miliardi di pagine. Quando Googlebot esegue la scansione della tua pagina, legge l'HTML, segue i link interni ed esterni, valuta i dati strutturati e invia tutte queste informazioni all'infrastruttura di indicizzazione di Google.

Cosa influenza il modo in cui Google esegue la scansione del tuo sito?

  • Budget per la fase di esplorazione: Il numero di pagine che Google indicizzerà sul tuo sito in un dato periodo. I siti di grandi dimensioni con molte pagine di scarso valore possono esaurire il loro budget per la ricerca per indicizzazione prima che Googlebot raggiunga contenuti importanti.
  • TXT: Un file nella directory principale del tuo sito che indica ai crawler quali pagine o sezioni possono o non possono indicizzare.
  • Collegamento interno: Le pagine prive di link interni ("pagine orfane") vengono spesso ignorate completamente dai crawler.
  • Velocità del server: I server lenti inducono Googlebot a scansionare un numero inferiore di pagine per visita, al fine di evitare di sovraccaricare il server.
  • Mappa del sito XML: L'invio di una sitemap a Google Search Console indica direttamente a Googlebot quali URL si desidera vengano scansionati e indicizzati.
Esempio: Se il tuo sito di e-commerce ha 50,000 pagine di prodotto ma genera anche 200,000 URL di navigazione con filtri (come /products?color=red&size=M), Googlebot spreca il budget di scansione su queste pagine filtro invece di scansionare le pagine dei tuoi prodotti effettivi.

Domande Frequenti

Con quale frequenza Google esegue la scansione del mio sito?

La frequenza di scansione varia enormemente in base all'autorevolezza del sito, alla frequenza di aggiornamento e alla velocità del server. Un importante sito di notizie può essere scansionato ogni pochi minuti, mentre un piccolo sito web appena nato può essere scansionato una volta ogni poche settimane. Pubblicare nuovi contenuti e ottenere link in genere aumenta la frequenza di scansione.

Posso impedire a Google di indicizzare pagine specifiche?

Sì. Utilizza il file robots.txt per bloccare intere sezioni oppure aggiungi un meta tag noindex alle singole pagine. Tieni presente che robots.txt blocca la scansione ma non l'indicizzazione (Google potrebbe comunque indicizzare un URL bloccato se altri siti vi rimandano). Il tag noindex impedisce l'indicizzazione anche se la pagina viene scansionata.

Termini correlati: Googlebot · Scansione del budget · Robots.txt · Mappa del sito · Indicizzazione

razzo

Automatizza il tuo SEO

Basta un clic per aumentare il tuo traffico organico!

Inizia subito a ottimizzare!

Glossario SEO